2024年8月AIの現状-オープンLLMの躍進-

1K Views

August 26, 24

スライド概要

profile-image

コンピュータを使って色々計算しています.個人的な技術に関するメモと講義資料が置いてあります.気が向いた時に資料を修正しています. 公立小松大学臨床工学科准教授 https://researchmap.jp/read0128699

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

2024年8月 人工知能の現状 -オープンLLMの躍進公立小松大学 藤田 一寿

2.

ざっくりとした人工知能の現 状

3.

なぜ今,人工知能が話題になるのか • 汎用的 • 自然な会話ができる. • 動くプログラムコードも生成される. 作文や絵を描くのが得意 です. • データ解析もできる. • 文章要約もできる. • 文章校正もできる. • 翻訳も出来る. • 表現の世界にも進出 • 絵も書ける. • 曲も作れる. • 以上の機能をもった人工知能を誰でも使える.

4.

なぜ今,人工知能が話題になるのか 人のかわりに何でも します. • 性能が高い • 前述の用途で実用に足る性能がある. • 人工知能に任せられる業務が増える.人工知能に雇用を奪われるの心配を真 面目にしなければならなくなった. • 人工知能技術が人類を滅ぼす可能性を真面目に議論する人工知能研究者が 現れる. • 絵や音楽など芸術の世界でも人工知能の作品が存在感を持つ. • 創造するという人の特権と思っていた行為が人工知能にも出来,人の尊厳 を傷つける. • 人は習得するために多大な時間をかけているのに,人工知能がいとも簡単に高品 質の絵を出力する(本当は人工知能(研究者)もこのレベルまで来るのに大変な 苦労をしているが).

5.

人工知能はすでに人を超えている https://aiindex.stanford.edu/report/ 人レベル 基本レベルの読解力 画像認識 英語理解 視覚的推論 中間レベルの読解力 視覚の常識的な推論 マルチタスク言語理解 数学

6.

マルチモーダル化 • 大規模言語モデルはテキストだけではなく画像や音声も処理するように なる. • テキストという一つのモードだけではなく,画像などの複数のモードに対応 =マルチモーダル対応 • GPT4-V (画像対応,2023年9月),Gemini (画像,動画,音声対応,2023年12月), Claude3 (画像対応,2024年3月) テキスト 画像 動画 音楽 テキスト マルチモーダル非対応 マルチモーダル対応

7.

マルチモーダル機能の実行例 グラフ(画像)を与え,それについて解 説させた例.人工知能が的確にグラフの 特徴を読み取っていることが分かる. Claude3.5 Sonnet

8.

マルチモーダル機能の実行例 グラフから相関係数を求めさせた 例.データがないと計算できない ことを説明しつつ,相関係数を推 測している. データから相関係数を計算すると0.9になる. Claude3.5 Sonnet

9.

マルチモーダル機能の実行例 課題のスクリーンショットを人工知能に 与えれ,課題を解かせた例.人工知能は 的確に画像から課題を読み取り,解答を 提示している.ただ,言語を指定しなか ったため,Pythonで答えている. スマホで課題や問題の写真をとり,人工 知能にその写真を渡せば,解答がすぐ出 てくるかもしれない.

10.

あらゆる端末に人工知能が搭載される • 2023年12月,GoogleはGoogle Pixel 8 ProにAIモデルGemini Nanoを 搭載した . • 2024年1月,MicrosoftはWindows 11 PCのキーボードに人工知能ボタ ン(Copilotキー)を導入することを発表した. • Copilotキーを押すことで,Windowsに搭載されている人工知能Copilotが起 動される. • 2024年6月,AppleはApple Intelligenceを発表した. • 将来iPhone,iPad,Macに人工知能が搭載される.

11.

用語の復習

12.

用語 • 対話型人工知能 • ChatAI(Chatbot)のこと. • ChatGPTやClaude,Geminiなどがこれにあたる. • モデル • データに対し予測を与える何か. • 大規模言語モデル(LLM: Large Language Model) • 言語の予測・生成を行うモデル.

13.

オープンLLMの躍進

14.

対話型人工知能と大規模言語モデル • ChatGPTなどの対話型人工知能は大規模言語モデル(LLM)を使って会 話をしている. • 対話型人工知能の能力はLLMの性能に依存しているところが大きい. 対話型人工知能システム 質問(+システ ムプロンプト など) 質問 インター フェース 回答を 表示 回答 回答 LLM

15.

オープンLLM • 対話型人工知能など言語を扱う人工知能の性能はLLMに大きく依存し ているため,開発したLLMを公開し他社が使ってしまうと自社の優位 性がなくなってしまう. • OpenAIやAnthropicは自社のLLMを公開していない. • クローズドソースLLMという. • 一方で,LLMを公開する動きも活発に行われており,商用可能なモデ ルも公開されている. • 公開されたモデルをオープンLLMと呼ぶ. • オープンLLMは公開されているため,誰でも使える. • 使用出来る範囲や制限はそれぞれのオープンLLMにより異なる.

16.

オープンソースAIの定義 • 許可を求めることなく,あらゆる目的でシステムを自由に使用できる. • 自由にシステムの仕組みを研究し,その結果がどのように作成された かを自由に理解できる. • 出力の変更など,あらゆる目的でシステムを自由に変更出来る. • 変更の有無にかかわらず,あらゆる目的で他のユーザーが使用できる ようにシステムを自由に共有できる. 原文 •Use the system for any purpose and without having to ask for permission. •Study how the system works and understand how its results were created. •Modify the system for any purpose, including to change its output. •Share the system for others to use with or without modifications, for any purpose. (https://opensource.org/what-is-open-source-ai) オープンだからといってオープンソースとは言えない.

17.

オープンLLMが社会を変えるかも • 2023年まではオープンLLMはChatGPTなどのサービスに比べ性能が劣 るため積極的には使われていなかった. • 動かすのも面倒でもあった. • 2024年に入り,オープンLLMは急速に性能を向上させGPT-4以上の能 力を身につけた. • さらに,オープンLLMの導入も簡単にできるようになってきており, 廉価なゲーミングPCさえあれば誰でも大規模言語モデルを動かすこ とが可能となっている.

18.

対話におけるオープンLLMの性能 • Chatbot Arenaにおける性能評価 • 人間が2つのAIに質問し,より良い回答をしたAIを選ぶ. 日本語 英語 矢印はオープンLLMを表す. (https://chat.lmsys.org/, 2024年8月23日現在)

19.

コード生成におけるオープンLLMの性能 HumanEval 1 GPT-4-Turbo (April 2024) 2 DeepSeek-Coder-V2-Instruct 3 GPT-4-Turbo (Nov 2023) 4 GPT-4 (May 2023) 5 CodeQwen1.5-7B-Chat 6 claude-3-opus (Mar 2024) 7 DeepSeek-Coder-33B-instruct 8 OpenCodeInterpreter-DS-33B 9 WizardCoder-33B-V1.1 10 Artigenz-Coder-DS-6.7B 11 Llama3-70B-instruct 12 Mixtral-8x22B-Instruct-v0.1 13 OpenCodeInterpreter-DS-6.7B speechless-codellama-34B14 v2.0 15 DeepSeek-Coder-6.7B-instruct 16 DeepSeek-Coder-7B-instruct-v1.5 17 Magicoder-S-DS-6.7B 18 starchat2-15b-v0.1 19 GPT-3.5-Turbo (Nov 2023) 20 code-millenials-34B MBPP 86.6 82.3 81.7 79.3 78.7 77.4 75 73.8 73.2 72.6 72 72 72 72 71.3 71.3 71.3 71.3 70.7 70.7 矢印はオープン ではないモデル 1 DeepSeek-Coder-V2-Instruct 2 GPT-4-Turbo (Nov 2023) 3 claude-3-opus (Mar 2024) 4 DeepSeek-Coder-33B-instruct 5 GPT-3.5-Turbo (Nov 2023) 6 Artigenz-Coder-DS-6.7B 7 claude-3-sonnet (Mar 2024) 8 CodeQwen1.5-7B-Chat 9 Llama3-70B-instruct 10 Magicoder-S-DS-6.7B 11 claude-3-haiku (Mar 2024) 12 OpenCodeInterpreter-DS-33B 13 WhiteRabbitNeo-33B-v1 14 OpenCodeInterpreter-DS-6.7B 15 DeepSeek-Coder-6.7B-instruct 16 starcoder2-15b-instruct-v0.1 17 XwinCoder-34B 18 starchat2-15b-v0.1 19 code-millenials-34B 20 speechless-coder-ds-6.7B 75.1 73.3 73.3 70.1 69.7 69.6 69.3 69 69 69 68.8 68.5 66.9 66.4 65.6 65.1 64.8 64.6 64.6 64.4 (https://evalplus.github.io/leaderboard.html,2024年7月9日現在)

20.

オープンLLMの性能まとめ • オープンLLMは会話に関してはGPT-4oなど最新のクローズドLLMに劣 る. • GPT-4に匹敵する性能なので実用的な性能があると言えるのではないか. • オープンLLMも日々進化しており,クローズドなLLMに性能が近づきつつ ある. • プログラミング能力は同等の性能. • プログラミングの補助という点ではオープンLLMで十分だと思われる. • 実用上の性能は,タスクやユーザの好みに依存する所が大きいので使 ってみるしかなし.

21.

モデルの開発競争 • 世界各国でモデルの開発競争が行われている. • オープンLLMの発展にMeta,Google,Microsoftが大きく寄与してい る. • 高性能なオープンLLM:Llama(Meta),Gemma(Google),Phi( Microsoft) • 中国製のオープンLLMの発展が目覚ましい. • 中国のモデル開発能力は世界でもトップクラスである. • 日本語のモデル開発は行われているが性能向上は緩やかである.

22.

対話における中国製モデルの躍進 • Chatbot Arenaにおける性能評価 日本語 英語 矢印は中国製のモデル (https://chat.lmsys.org/, 2024年8月23日現在)

23.

コード生成におけるオープンLLMの性能 HumanEval 1 GPT-4-Turbo (April 2024) 2 DeepSeek-Coder-V2-Instruct 3 GPT-4-Turbo (Nov 2023) 4 GPT-4 (May 2023) 5 CodeQwen1.5-7B-Chat 6 claude-3-opus (Mar 2024) 7 DeepSeek-Coder-33B-instruct 8 OpenCodeInterpreter-DS-33B 9 WizardCoder-33B-V1.1 10 Artigenz-Coder-DS-6.7B 11 Llama3-70B-instruct 12 Mixtral-8x22B-Instruct-v0.1 13 OpenCodeInterpreter-DS-6.7B speechless-codellama-34B14 v2.0 15 DeepSeek-Coder-6.7B-instruct 16 DeepSeek-Coder-7B-instruct-v1.5 17 Magicoder-S-DS-6.7B 18 starchat2-15b-v0.1 19 GPT-3.5-Turbo (Nov 2023) 20 code-millenials-34B 86.6 82.3 81.7 79.3 78.7 77.4 75 73.8 73.2 72.6 72 72 72 ? 72 71.3 71.3 71.3 71.3 70.7 70.7 中国製のモデル 中国系開発者がメインのモデル (https://evalplus.github.io/leaderboard.html,2024年7月9日現在)

24.

個人的な使用感 • オープンLLMは英語で使う分には十分な性能がある. • 英語の推敲で使うのであれば,有料のサービスはいらないかもしれない. • ハルシネーションは起こりやすいかもしれない. • オープンLLMはGPTなどのクローズドなモデルより知識量が少ない感じが する. • そもそも対話型人工知能に正確さを求める使い方をしてはいけない. • 日本語は使い物にならないかもしれない. • 2024年中頃あたりからベンチマーク的に日本語能力が高いモデルも出てき ている (「ベンチマークが高い」と「使える」は同じではない).

25.

オープンモデルの性能向上と今後の社会 • オープンLLMがGPT-4と同等以上,さらにはGPT-4oなどに迫る性能に なってきている. • オープンLLMは安いゲーミングPC程度さえ手元にあれば電気代だけ で使えるため,対話型人工知能の爆発的普及が来る可能性がある. • オープンLLMならローカル環境にインストールして実行できる. • 外部のサーバを利用した人工知能の場合,機密文章や個人情報を扱え ないが,ローカル環境で実行できるオープンLLMなら機密文書を扱え る. • オープンLLMを改良して,適用したいドメインに特化した人工知能を 作ることも可能かもしれない. LLMを特定ドメインに特化させる ことは,今のところ難しい.

26.

ローカルLLMの躍進

27.

ローカルLLMとは • 施設内で動く大規模言語モデルのことをローカルLLMと呼ぶ. インターネット 施設内 質問 回答 施設内 質問 インターネット上の どこかのコンピュー タでLLMが動く 回答 施設内のコンピュ ータでLLMが動く

28.

ローカルLLMに必要な実行環境 • LLMは,条件を満たせばゲーミングPCで十分超高速に動作する. • 高速に動作する条件 • LLMがゲーミングPCに搭載されたGPU(CGを描画する専用の部品)のメモリに すべての入ること。 • 高速に動作する条件は低いため,ローカルLLMの普及が予想される. 全部入る LLM

29.

ローカルLLMの普及の鍵 • LLMを適用するタスクがある. • 各自で考える. • 高速に動作する. • 達成済み. • 導入が容易になる必要がある. • 達成済み. • オープンにしろクローズドにしろLLMは汎用的である反面,特定の専 門領域に弱い.そのため,LLMを目的に応じてチューニングや性能向 上を行う必要がある. • 難しいかも.

30.

LLMの性能向上や調整

31.

LLMを使う上での問題 • 文章力,理解力,知識が足りない. • これを改善するには,LLMをより大きくする必要があるかもしれないし, 学習に使ったデータの量や品質も上げる必要があるかもしれない. • LLMを1から作ることになるので難しい. • 適用する分野の知識が足りない. • 追加学習やファインチューニングでLLMに適用する分野の知識を獲得させ る. • 小規模な組織や個人では難しい. • 質問(プロンプト)に知識を埋め込むこむ. • 誰でもできる.現実的.

32.

LLMの学習や調整の流れ 事前学習 ランダムモデル 継続事前学習 事前学習済みモデル 事前学習済みモデル ファインチューニング チューニング済みモデル アライメント 継続事前学習:追加で用意したデータを 使って学習すること. 分野固有のデータ を使用して既存のLLMをさらに事前ト レーニングすることで,既存の LLM を 強化する. ファインチューニング:既に事前学習さ れたモデルに対して,特定のタスクや分 野に適応させるために追加の学習する. ラベル付きデータを使用してモデルのパ ラメーターを微調整し,タスクの特定の ニュアンスに合わせて調整する. アライメント:モデルの出力を人間の意 図や価値観に合わせて調整する. アライメント済みモデル モデル モデルマージ:複数のモデルを元に,1 つの新たなモデルを作る. モデル モデル モデルマージ モデル https://dalab.jp/archives/journal/llm-finetuning-part1 https://medium.com/@eordaxd/fine-tuning-vs-pre-training-651d05186faf https://www.nistep.go.jp/wp/wp-content/uploads/76f43c15035b40de18d934fada58077a.pdf

33.

LLMの学習や調整の問題 • 特定の分野の知識を学習や調整でLLMに獲得させるには超高額で高性 能なコンピュータが必要となる. • 資金力が有る組織でないと難しい. • モデルマージは,個人や大学の研究室で手が届く高性能なパソコンで できるが,特定の分野の知識を与えられるわけではない. • LLMの学習や調整を行わないで,思い通りに動かしたい.更に,特定 の分野の知識や能力を与えたい.

34.

LLMをいじらず調整や挙動を変える方法 • ハイパーパラメタ調整 • 温度パラメタなどのLLMのハイパーパラメタを調整し,回答のランダムさや回答の長さなどを 調整する. • RAG(Retrival Augmented Generation,検索拡張生成) • 外部知識を利用してLLMを強化する方法. • 関数呼び出し • 外部システム,API,およびツールとやり取りできるようにする方法. • システムプロンプト • LLMが質問(プロンプト)に対応する前に,LLMに提供される,一連の指示,ガイドライン, およびコンテキストを与えるためのプロンプト.例:ロールプロンプトで役割を与え口調など を変える. • プロンプトエンジニアリング • LLMに質問する際,希望の回答が出るよう質問(プロンプト)を工夫する技術 • https://www.docswell.com/s/k_fujita/5YWJWD-2024-01-19-233228を参考にしてください.

35.

LLMの調整は難しい • いずれの方法も上手くいく保証はない. • LLMの調整は難しい.

36.

人工知能に関する感想

37.

感想 • オープンLLMは安価なゲーミングPCで十分動く. • オープンLLMは英語に関しては性能が高い. • ベンチマークの結果が必ずしも個別の用途における性能の差を表さな い.実際にモデルを使わないと使えるかどうか分からない. • 様々なモデルが公開されているため,異なる特徴を持つモデルを複数 使うことができる. • 人は複数の人工知能に意見を聞き,それをまとめる役割になる(すで になっている). • 最終的にそれも人工知能が行うだろう.

38.

感想 • いずれオープンLLMがクローズドLLMを凌駕するかもしれない. • 差がなくなったときOpenAIやAnthropicは生き残れるのか? • 差がなくなったとき,人類は何をモチベーションにLLMを開発するの だろうか? • オープンLLMに負けるかもしれないのに, 大金をかけてまでLLMを開発す る企業があるのか. • そもそも,大金をかけて開発したLLMをオープンにすると,それを独 占できないから開発費を回収できないのではないか? • オープンLLMがOpenAIやAnthropicのクローズドなLLMを駆逐した後, Llamaなどの高性能なオープンLLMがクローズドになるのかも.

39.

感想 • 大規模言語モデルは高等教育に多大な影響を与えている. • 特に,理工系の高等教育の価値観が変わるのではないか? • 理論の基礎勉強に高等教育機関は必要ないのではないか. • 専門書と人工知能があれば学習が進む. • いつでも人工知能と議論でき,いくら質問しても怒らない. • 人工知能は間違えるが,その間違えがヒントになる事が多い. • 大学は人と会う場所,機材を使う場所,実物を触らなければ習得できない技術を学 ぶ場所としての価値がより重要になる. • 人工知能があれば英語の学習もはかどるだろう. • やる気がある者が人工知能を使いこなし自分の成長を加速させる. • 教育に限らず人工知能を使いこなす者の能力や生産性が向上し、使わ ない者との差が開く.