23.5K Views
April 09, 24
スライド概要
講演を頼まれていたので、イントロ用のスライドを作りました。
ミスがあるかもしれません。誤り、不正確な点などがあればご連絡ください。
化学・材料・データ・AI・ロボット
それぞれの専門分野 (例えば化学・材料)にも、 おそらく大規模言語モデルは やってくるだろう という話 Kan Hatakeyama 2024.4.9 1
目次 • ビッグ・テックのAIが専門ドメインを狙い始めている • AIは、トップレベルの専門家から学び始めている • 化学・材料業界の例 • Q&A • (材料開発に役立つ生成AIには)どのような入力データセットを用意すれ ば良いか? • マルチモーダルモデルを前提とした場合に、研究論文の図表などはどの ようなデータとして取り扱うのが良いのでしょうか? • オススメの日本語の生成AI 2
ビッグ・テックのAIが 専門ドメインを 狙い始めている 3
大規模言語(基盤)モデルは、結構賢い 2024年 大学入試(共通テスト)で、大半の科目で受験者平均を凌駕 【2024年最新】共通テストを色んな生成AIに解かせてみた(ChatGPT vs Bard vs Claude2) https://note.com/lifeprompt/n/n87f4d5510100#a8a9dde2-da26-4460-be5b-d46ef283a7d1 4
ChatGPTの欠点: 論理思考・幻覚 2023/02/12 チャットGPTの嘘 https://www.shingakukuukanmove.jp/aliarai/ ※ 正答はイとエ GPT-4, Claude 3Opusも誤答 (24/4/8検証) 5
本気で学べば、数学もできる AlphaGeometry (言語モデル+記号推論エンジン)が数学オリンピックの幾何問題で金メダル級の実力 Thang Luong et al., Nature volume 625, pages 476–482 (2024) ドメイン洗練&アルゴリズム改善で、幻覚は少しずつ抑制されていく流れ…? 6
基盤モデル研究の「次の一手」(の予想) • さらなる高性能化 • 自律推論 • 幻覚(ハルシネーション)の低減 • 専門ドメインへの適合 • このスライドで扱うトピック • マルチモーダル化 • 五感(画像、音声、…) • アクチュエータとの連動 7
AIは、トップレベルの専門家か ら学び始めている(模様である) AI開発の力点 これまで: 一般人によるフィードバック これから: プロのフィードバック 8
例: 化学研究への展開 2024/4/1プレプリント https://arxiv.org/abs/2404.01475 9
注目したい点: 利益相反の申告セクション トップのAI企業(OpenAI, Stability AI, Google, …)は、ITエンジニアだけでなく、 異分野の専門家とタッグを組み始めている 10
特定の専門分野に特化したカスタム GPT-4の構築プログラム 色々な話を聞いていると、 この領域を、 わりと本気で取りに来ようと しているという印象を受ける https://openai.com/form/custom-models 11
https://jp.reuters.com/markets/japan/funds/BH37KVDABBNLXPY2RRGHLL2QEE-2024-04-08/ 12
いつ、AIが「覇権を握る」のか? 予測は難しいが、この業界の指数関数的な挙動には注意を払う必要がある (e.g., ムーアの法則) 性能 実際の挙動 (指数関数) ヒトの期待 (どちらかといえば線形的) 時間 13
論点: AIの専門特化のコストは「低い」 • これまで • 高い人件費、教育コストを払って、専門家を集めるしかなかった。 • 現実空間で事象が動くので、スケーラビリティにも制約がある。 • これから • ある程度の専門対応については、組織内の情報を学習したカスタムAIを 作れば良くなるかもしれない。 • 計算代はかかるが、人件費よりは安い。 • プラットフォーマーに、新たな「インフラ代」(= AI使用料)を払う時代が到来しつつある • デジタル空間の話なので、スケーラビリティが非常に高い。 • i.e., テック企業が一気に世界の覇権を握るプラットフォーマーになれた理由 14
化学・材料業界の例 15
今度こそ、 実験研究にAIが参入するかもしれない!? • 現場の期待とギャップ • 組織内外で蓄積したノウハウや暗黙知を学んだ、賢いAIがほしい。 • しかし、構造化されたキレイなデータは殆どない。 • e.g., 数十年前の社内文書のスキャンデータならいくらでもある • これまで: 特化型アルゴリズム • 多種多様で少数、かつフォーマットがバラバラのデータに弱かった。 • 扱える入出力情報が限定的なため、「机上の空論」に終わる推論が多かった。 • 過去の文書を手作業で読み取って構造化する手間 > 特化型アルゴリズムを使う恩恵 • 今回: 基盤モデル • 熟練の研究者のように、雑多なデータを良い感じに読み解いて推論を行うこと で、何らかの有益な提案をしてくれる可能性がある。 16
これまで: 業界内で「棲み分け」ができた パラメータ数 109 106 103 基盤 モデル 一般データ 言語モデル (BERTなど) グラフ・画像系 ニューラルネット 大規模 データベース ・シミュレーション結果 モデルサイズ vs. 学習可能な データ数の間にトレード・オフが存在 ランダムフォレスト サポートベクタマシン ベイズ最適化 … ラボでの実験結果 100 線形回帰 データの希少性(~1/データ数) 17
これから: 基盤モデルが全領域を担う可能性 基盤モデル パラメータ数 109 106 103 一般データ 言語モデル (BERTなど) グラフ・画像系 ニューラルネット 大規模 データベース ・シミュレーション結果 ランダムフォレスト サポートベクタマシン ベイズ最適化 … ラボでの実験結果 100 線形回帰 データの希少性(~1/データ数) 18
基盤モデル ≒ 汎用知能(の卵) • 基盤モデルは、パラメータ数(>1010)が十分を大きくすることで、こ れまでの特化型アルゴリズムと違い、「汎用的」な思考能力を獲得 できるようになりつつある。 • 人間のように、基盤モデルは様々な分野で知識を持つ。 • 知識量だけ見ると、人間を上回る。 • 人間のように、AIは少数のデータからでも推論ができる。 • 科学知識や論理推論を組み合わせられる。 • 基盤モデルが(人間のように)小規模多品種のデータを扱えるようになる。 19
研究例: https://www.docswell.com/s/KanHatakeyama/KENDQE-2024-01-31-113519 わずか10件のデータ学習でも予測可能 • 大規模言語モデルMixtralが既存の代表的な手法(Random forest)の性能を凌駕 • 科学的な常識や推論力を活かすことで、わずか10件の学習データから未知化合物の予測が可能※ • 小規模な実験データベースなどにも汎用性高く、運用できる可能性 (with 解釈性) 予測値 予測値 ※理由無しで学習・推論した場合は予測誤差(MSE=14852)が大きかったため、事前学習時での問題のリークは基本的に無視できると考えられる 実測の融点 (℃) 言語モデル (Mixtral-8x7B) 実測の融点 (℃) 普通の機械学習モデル (Random forest + RDKitの分子記述子) 20
ロボット実験は今後の研究トレンド 収集可能なデータ数が一気に増え、「研究開発のパワーゲーム性」が増す可能性 • AI研究の二大目標(?) • コンピュータ内で完結するタスクの性能向上 • 現実世界への適合 (≒ロボット連携) RT-2: New model translates vision and language into action https://www.deepmind.com/blog/rt-2-new-model-translatesvision-and-language-into-action 21
どこから攻めるか? 現場連携に不安(?) ソフトウェア志向 (“アメリカ”型) 基盤モデル パラメータ数 109 106 103 100 一般データ 言語モデル (BERTなど) グラフ・画像系 ニューラルネット 大規模 データベース ・シミュレーション結果 予算・人材に 課題? ランダムフォレスト サポートベクタマシン ハードウェア志向 ベイズ最適化 (“日本”型) … ラボでの実験結果 線形回帰 データの希少性(~1/データ数) 22
化学 × 大規模言語モデルの現在地@日本 日本化学会 春季年会2024における… 「大規模言語モデル」のヒット件数は3件 このスライドを作っている人 23 https://pub.confit.atlas.jp/ja/event/csj104th/
大規模言語モデル研究の動向@日本 国産生成AI基盤モデル開発を政府が支援 「GENIAC」開始 (2024.2-) https://www.watch.impress.co.jp/docs/news/1565857.html IoT, 情報系の会社 元Google社員が 作った会社 情報科学の 研究機関 自然言語処理の 会社 自動運転の会社 人工知能の研究室 人工知能の会社 汎用原子レベルシミュレーター「MATLANTIS」を開発した Preferred Networksの子会社 24
国立情報学研究所 2024/4/8 https://llm-jp.nii.ac.jp/about/ 製造、ものづくり、化学・材料科学は 少なくともここには含まれると期待したいが… 25
このまま行くと…? これは、日本で よくある負けパターン かもしれない…? ビッグ・テック × 欧米のラボ (既に連携中…) ソフトウェア志向 (“アメリカ”型) 基盤モデル パラメータ数 109 106 103 100 一般データ 言語モデル (BERTなど) グラフ・画像系 ニューラルネット 大規模 データベース ・シミュレーション結果 予算・人材に 課題? ランダムフォレスト サポートベクタマシン ハードウェア志向 ベイズ最適化 (“日本”型) … ラボでの実験結果 線形回帰 データの希少性(~1/データ数) 26
生き残り戦略 • A. ハードウェアに励む • AIが覇権を握るのは、当面は先だろうと考える方のアプローチ • 未来は誰にもわからないので、戦略としては妥当かもしれない。 • B. ビッグ・テックのAIプラットフォーム戦略に乗る • 今から従順に、自ら進んで上質なデータを差し出せば、先行者利益を得られるかも? • C. ビッグ・テックと戦う / 共存する • AIプラットフォームの自作は、完全な植民地化を避ける上では有用 • しかし、最高峰のAIを使った「Bの勢力」に勝つための入念な戦略が必須 • D. アナログ・職人芸の世界を極める • AIロボットが入り込みにくい、複雑 / 人ならではの領域を攻める • スケーラビリティは限定的 27
Q&A 28
Q.(材料開発に役立つ生成AIには)どのよう な入力データセットを用意すれば良いか? A. 2023-24年の時間スケールでは、具体的に役立ったという事例を まだ聞かないので、不明。 コミュニティとしては、機械学習に自由に使用可能(商用含む)な論文 データの整備が非常に重要 現状: ✕: 購読系ジャーナル → 大量ダウンロードは基本不可 ✕~△: 日本の学術レポジトリ → 同上・モデル公開などに制約* ◯: OA論文・プレプリント → 改変可・商用可のライセンスが好ましい *オープンアクセス論文も同様の制約がかかるケースが大半。レポジトリに個別に問い合わせれば、包括ダウンロードが可能な ケースはあるが、モデル公開や商用利用に大きな制約がかかる。 29
Q.(材料開発に役立つ生成AIには)どのよう な入力データセットを用意すれば良いか? A. 中長期 実験に関する、あらゆる詳細な情報を記録したデータセットを準備すれ ばよい(かもしれない)。 → 何時何分何秒に何をしたか、までも正確に記録する。 ラボ内で集積した大量のビッグデータを基盤モデルで解析することで、 人間よりも優れた意思決定を行える可能性がある。 記録の精密性と再現性という観点では、人間ではなく、ロボット実験に 30 軍配が上がる可能性。
Q.マルチモーダルモデルを前提とした場合に、 研究論文の図表などはどのようなデータとし て取り扱うのが良いのでしょうか? A. 短期(2023-2024) ・マルチモーダルモデルの画像認識の精度が十分ではないため、実用を 狙うのは、おそらく難しい。 (例えば、 Digital Discovery, 2024,3, 491-501 ) ・特に、化学・材料系の訓練データが足りていない模様で、このドメインで の正確な情報の読み取りは困難 31
Q.マルチモーダルモデルを前提とした場合に、 研究論文の図表などはどのようなデータとし て取り扱うのが良いのでしょうか? A. 中長期 ・AIにとってわかりやすいフォーマットは、まだ誰にもわからないが、 XML形式などが一つの案にはなっている。 (pdfは解析に手間) ・実験プロトコルをどう記述するか、という 問題とも密接に絡む問題。 トロント大(2023) arXiv:2303.14100 32
Q. オススメの日本語の生成AI A. 2024年4月時点での、私見に基づく判断です。 クローズドな商用モデル • GPT-4 (OpenAI: 2023.3) • 定番のモデル • Claude 3 (Anthropic: 2024.3) • 日本語がもっとも(?)流暢と評判 • 長い入出力が可能なので、非常に便利 • Gemini 1.5 (Google: 2024.2) • 100万トークンの入力*が可能 (筆者は未使用, *機能は限定公開?) 33
Q. オススメの日本語の生成AI A. 2024年4月時点での、私見に基づく判断です。 オープンなモデル(商用利用については制約のあるケース多数) • Command R+ (Cohere: 2024.4) • GPT-4やClaude 3に一部匹敵すると評判のモデル (筆者は未使用) • 頭一つ抜けて賢い、と評判 • DBRX (Databricks: 2024.3), Grok-1 (Tesla: 2024.3) • GPT-3.5に匹敵すると評判のモデル (筆者は未使用) • Swallow-MX-8x7b-NVE-v0.1 (Mistral→東工大, 2024.3) • 高性能と評判のMistral社のモデル(2023.12)を、日本語で継続学習したもの 34