10.3K Views
November 07, 23
スライド概要
発表スライドの抜粋です(23年11月ver)
ロボット実験関連のスライド類を少し追加したバージョンはこちら。
https://www.docswell.com/s/KanHatakeyama/ZJLR7M-2023-11-11-174655
化学・材料・データ・AI・ロボット
化 学 ・ 大 規模 言語モデル・ ロ ボッ ト 研 究の 研 究 進 捗 と周 辺 状況メモ KAN HATAKEYAMA 2023/11/7 1
アウトライン 生成モデル x 事務 生成モデル x 研究 生成モデル x 将来 2
生成モデル x 事務 イントロダクション 3
ChatGPT PLUS 4
DALL-E3による 画像生成 スライドの表紙 5
GPT-4V + DALL-Eによるイラスト生成 6
動画生成AI (RUNWAYML) 7
論文執筆 日本語の下書き 英作文を依頼 8
STAM: METHODS (EDITOR’S CHOICE) ほぼ全てAIが書いた文章 「英語が下手」とのクレームゼロ 9
DIGITAL DISCOVERY (INVITED PAPER) ほぼ全てAIが書いた文章 「英語が下手」とのクレームゼロ 10
大規模言語モデル は 化学 を理解しているのか? ・暗記した文字列を確率分布に従って返しているだけなのか ? 11
大規模言語モデル 与えられたテキストに対して確率的に応答する存在 いい天気ですね (70%) パソコンの調子が悪いです (3%) 猫である (1%) 53khalrkkj (0.0001%) こんにちは、今日は 入力 大規模言語モデル 出力 12
人間 与えられた諸情報に対して確率的に応答する存在 いい天気ですね (70%) パソコンの調子が悪いです (3%) 猫である (0.001%) 53khalrkkj (0.0000001%) (+筋肉等の運動) こんにちは、今日は (+五感) 入力 脳+身体 出力 13
「知性の判断」は哲学的にも難題 チューリングテスト 対話を通して、相手が人間 or AIを判定 短い会話ならGPT-4はテストに合格 中国語の部屋 中国語を理解できない外国人を小部屋に閉じ込め、マニュアルに従って中国語の応答をさせる 外部からは、外国人が中国語でやり取り(理解)できるように見える 畠山の立場 とても難しい問題なので、とりあえずは「求める回答」が得られればそれで良い 14
「記憶効率」は脳よりも良い!? パラメータ数の比較 人間の脳のニューロン数: 約1000億 GPT-3.5-turboのパラメータ数: 200億 (GPTの方がヒトよりも「知識量」は多い!?) 15
16
周辺状況: 大規模言語モデルと化学研究の融合 GPT-3.5/4 ベイズ最適化と組み合わせた触媒探索 (White et al., arXiv 2023) ロボットアームの操作 (Aspuru-Guzik et al., arXiv 2023) 機械学習における説明変数の選択 (Hatakeyama et al., Digital Discov. 2023) 種々の化学タスクへの適用検討 (Hatakeyama et al., STAM:Methods 2023) … オープンソース系 種々の化学ツールの融合 (White et al., arXiv 2023) 基盤モデル ChemBERTa (Ramsundar et al., arXiv 2022) Llama 2: GPT-3に匹敵する推論性能のモデル (Meta, 2023/7/18) … 17
大規模言語モデルの強みとは? 膨大な知識を持っている 一人の科学者の脳を凌駕した情報量を処理可能 “科学的な推論”ができる 従来モデルとは異なり、データの意味を踏まえた判断が可能 再帰的に呼び出せる 思考の連鎖や試行錯誤ができる 18
化学研究において GPT-4が できること / できないこと STAM:Methods 2023, 3, 2260300. 19
化学分野でのGPT-4の実力 化学知識の回答 大学院の教科書レベルなら可能? 化合物の認識精度 高校ー学部生レベル? データ解析 学部レベルなら可能? 予測・提案 当たるも八卦、当たらぬも八卦 20
化学知識の回答 21
例: ACETAMINOPHEN SYNTHESIS FROM PHENOL アセトアミノフェンをフェノールから合成するには? 22
23
対応するスキーム 正しい合成方法が得られた 24
うまく行かない例 25
アセトアミノフェンの合成ルートの画像化 メチャクチャなスキームが生成 学習に用いる化学系の画像データが圧倒的に不足しているため(?) 26
TEMPOの合成 • 化学的にありえないスキームを提示 (※ちょっと惜しい。学生の答案で見かけそうな内容) 27
化合物の認識精度 化合名とSMILES文字列の相互変換 28
変換ミスが多発 やや惜しい変換も散見 AIの専門家が作ったモデルにしては、上出来(?) 29
データ分析 言語AI + 専用ツール 30
問題: 次のデータから沸点を推定せよ Temperature T(K), vapor pressure P(atm) =[ (298, 0.09383) (323, 0.31333) (348, 0.8799) (373, 2.15154) (398, 4.70202) (423, 9.36882) ] 31
温度ー圧力データからの沸点の予測 • 理論式&数式処理ツールWolframの使用 • GPT-4が自律的に”思考” 32
予測・提案 化学知識に基づく推論 33
物性の予測 34
物性の予測 答: 0.7 35
言語モデルの 強み 従来のケモ/マテリアルズ・インフォマティクスの 難題を一挙に解決!? • One-shot learning • たった一件のデータから予測可能 • Explainable AI • 予測の理由を考察 • 不確定性の示唆 • 曖昧さの提示 36
パラメータの提案 問題: Cを最大化するA0,B0,tを求めよ (A0,B0,t,C) =[ (1.5,1.5,5,0.2), (1.5,2.5,3,0.4), (2.0,3,0,2,0.5), ...] 37
ブラックボックス最適化 原理が不明な系に対する最適化手法 ベイズ最適化などが有名 (A0,B0,t) C 38
ブラックボックス最適化の問題点 “多くの試行錯誤”が必要 万能な探索アルゴリズムは存在しない (No free lunch theorem) 39
解決案: “化学的思考” 多くの問題は、本来はホワイト(OR グレー)ボックス最適化 40
濃度A0 濃度B0 今回の問題 WITH 言語 反応時間t Cを最大化するA,Bの濃度と反応時間tは? 反応式は既知 速度定数kAB, kcは未知 41
GPT-4への プロンプト (日本語訳) #あなたの役割: 化学のエキスパート #反応系 A + 2B →C2 C→D CとDの初期濃度はゼロである。 反応速度定数やその他の情報はわからない。 #目的: 最大濃度のCを得る. Wolframを使って方程式とデータを分析することができます. #変更可能なパラメータ Aの初期濃度 = A0 (0 から 3) Bの初期濃度 = B0 (0 から 3)反 応時間 t (0 から 10) #得られたデータ(A0,B0,t,C) =[.] #あなたの課題: 次の反応条件案(A0,B0,t)を提示 42
GPT-4の返答 まだデータがありませんので、AとBの異なる初濃度、および異なる時間での反応を試すこ とから始めることができます。 Aの初濃度(A0)とBの初濃度(B0)については、与えられた範囲の中間点、すなわち1.5か ら始めることができます。 反応時間(t)についても、与えられた範囲の中間点である5から始めることができます。 したがって、次の計画のための以下の反応条件を提案します: Aの初濃度(A0)= 1.5 Bの初濃度(B0)= 1.5 反応時間(t)= 5 これらの条件で反応を行い、Cの濃度を提供してください。その後、結果に基づいて条件を 調整し、Cの濃度を最大化しようと試みることができます。 43
GPT-4へのプ ロンプト (2周目) #あなたの役割: 化学のエキスパート #反応系 A + 2B →C2 C→D CとDの初期濃度はゼロである。 反応速度定数やその他の情報はわからない。 #目的: 最大濃度のCを得る. Wolframを使って方程式とデータを分析することができます. #変更可能なパラメータ Aの初期濃度 = A0 (0 から 3) Bの初期濃度 = B0 (0 から 3)反 応時間 t (0 から 10) #得られたデータ(A0,B0,t,C) =[(1.5,1.5,5,0.195)] (実験結果) #あなたの課題: 次の反応条件案(A0,B0,t)を提示 44
GPT-4の返答(二週目) 反応系とCの濃度を最大化するという目標を考慮すると、次のことを考慮できます: 反応 A + 2B -> C は、Bに関して二次の反応です。これは、反応の速度がBの濃度の増加とともに増加することを意 味します。したがって、B0を増加させると、Cの濃度が高くなる可能性があります。 反応 2C -> D は、時間の経過とともにCの濃度を減少させます。したがって、反応時間を短縮することで、 CがDに変 換される時間が少なくなるため、Cの濃度が高くなる可能性があります。 Aの濃度も反応速度に影響します。しかし、反応は Aに関して一次のものなので、A0を変更する効果はB0を変更する ことよりもそれほど大きくはありません。 これらの考慮点に基づいて、次の反応条件を提案します: Aの初濃度(A0)= 1.5(今のところ一定にしておく) Bの初濃度(B0)= 2.5(最初の反応を速めるために増加させる) 反応時間(t)= 3(2番目の反応を遅くするために減少させる) これらの条件で反応を行い、Cの濃度を提供してください。その後、結果に基づいて条件を調整し、 Cの濃度を最大化 しようと試みることができます。 45
GPT-4 vs. ベイズ最適化の結果 “化学的思考”を行ったGPT-4が圧勝 データの意味を理解していないので、ランダムな探索しかできない 46
機械学習の説明変数の選択 DIGITAL DISCOVERY 2023 47
今回のタスク Polymer Database (CROW) 汎用ポリマー構造 約40種 分子構造から屈折率を予測 48
分子構造のどこに着眼すべきか? DFT計算、RDKit記述子、Group contribution method, …何を使うべきか? 化学・計算科学の専門家でも、よく分からない世界 DFT_energy rdkit_MaxEStateIndex rdkit_Kappa1 rdkit_EState_VSA8 rdkit_fr_N_O rdkit_fr_phos_ester DFT_dipoleX rdkit_MinEStateIndex rdkit_Kappa2 rdkit_EState_VSA9 rdkit_fr_Ndealkylation1 rdkit_fr_piperdine DFT_dipoleY rdkit_MaxAbsEStateIndex rdkit_Kappa3 rdkit_VSA_EState1 rdkit_fr_Ndealkylation2 rdkit_fr_piperzine DFT_dipoleZ rdkit_MinAbsEStateIndex rdkit_LabuteASA rdkit_VSA_EState10 rdkit_fr_Nhpyrrole rdkit_fr_priamide DFT_dipoleTot rdkit_qed rdkit_PEOE_VSA1 rdkit_VSA_EState2 rdkit_fr_SH rdkit_fr_prisulfonamd DFT_HOMO rdkit_MolWt rdkit_PEOE_VSA10 rdkit_VSA_EState3 rdkit_fr_aldehyde rdkit_fr_pyridine DFT_LUMO rdkit_HeavyAtomMolWt rdkit_PEOE_VSA11 rdkit_VSA_EState4 rdkit_fr_alkyl_carbamate rdkit_fr_quatN DFT_alpha656nm rdkit_ExactMolWt rdkit_PEOE_VSA12 rdkit_VSA_EState5 rdkit_fr_alkyl_halide rdkit_fr_sulfide JR_BoilingPoint rdkit_NumValenceElectrons rdkit_PEOE_VSA13 rdkit_VSA_EState6 rdkit_fr_allylic_oxid rdkit_fr_sulfonamd JR_MeltingPoint rdkit_NumRadicalElectrons rdkit_PEOE_VSA14 rdkit_VSA_EState7 rdkit_fr_amide rdkit_fr_sulfone JR_CriticalTemp rdkit_MaxPartialCharge rdkit_PEOE_VSA2 rdkit_VSA_EState8 rdkit_fr_amidine rdkit_fr_term_acetylene JR_CriticalPress rdkit_MinPartialCharge rdkit_PEOE_VSA3 rdkit_VSA_EState9 rdkit_fr_aniline rdkit_fr_tetrazole JR_CriticalVolume rdkit_MaxAbsPartialCharge rdkit_PEOE_VSA4 rdkit_FractionCSP3 rdkit_fr_aryl_methyl rdkit_fr_thiazole JR_EnthalpyForm rdkit_MinAbsPartialCharge rdkit_PEOE_VSA5 rdkit_HeavyAtomCount rdkit_fr_azide rdkit_fr_thiocyan JR_GibbsEnergy rdkit_FpDensityMorgan1 rdkit_PEOE_VSA6 rdkit_NHOHCount rdkit_fr_azo rdkit_fr_thiophene JR_HeatCapacity rdkit_FpDensityMorgan2 rdkit_PEOE_VSA7 rdkit_NOCount rdkit_fr_barbitur rdkit_fr_unbrch_alkane JR_EnthalpyVap rdkit_FpDensityMorgan3 rdkit_PEOE_VSA8 rdkit_NumAliphaticCarbocycles rdkit_fr_benzene rdkit_fr_urea 49
変数選択の流れ 専用アルゴリズムだけで行おうとすると、”みにくいあひるの子の定理”の問題が顕在化する 人間が知識に 基づいて選択 (属人的・ノウハウ) 専用アルゴリズムで選択 (スパースモデリングなど) 50
GPT-4に 聞いてみる 51
高分子の屈折率に寄与する説明変数を聞く 200個超の候補から、GPT-4に選んで貰う (DFT計算、RDKit記述子、Group contribution method) 52
高分子の屈折率に寄与する説明変数を聞く 理論式(ローレンツ・ローレンツ式)を考えましょうという提案 𝒏𝟐 − 𝟏 𝟒𝝅 𝜶 𝒏𝟐 +𝟐 = 𝟑 ∙ 𝑽 分極率α、体積V 53
高分子の屈折率に寄与する説明変数を聞く 理論式なども踏まえながら、重要そうなパラメータを提案 54
変数の 依存関係 (階層性)も 回答可能 プロンプト Think step by step. Estimate the causal relationship between the following variables and output it in Mermaid syntax. *** Refractive_index DFT_energy DFT_HOMO … 目的変数 理論式と 深く関わる パラメータ 一部、不適切な箇所もあるが、 全般的には正しい解釈 55
機械学習のフロー GPT-4: 言語モデルを使って、理論式をもとに説明変数を選択(先述) Boruta: 検定作業を行って、統計的に有意な説明変数を選択(random forest使用) 5-Fold cross validation: 訓練・評価用データを分ける手法の一つ 56
平均予測誤差(MAE) スパースモデリング スパースモデリング サポートベクタマシン ガウス過程 ランダムフォレスト 勾配ブースト 全ての 説明変数を 利用 ランダムな 10変数 ランダムな 20変数 Boruta アルゴリズム 提案 手法 57
アルゴリズムの比較 GPT-4は “説明変数の意味” を考慮 Borutaは “説明変数の意味” を無視 意味が分かりやすく 汎用性のある パラメータが 選ばれやすい 化学者にとっても “意味不明”で、 汎用性の低い パラメータが 選ばれがち 58
言語モデルで 変数間の階層性 に踏み込む 目的変数 今後… • シンボリック回帰 • 因果推論 • ベイジアンネットワーク • … 59
一旦まとめ: 大規模言語モデルの強みとは? 膨大な知識を持っている 一人の科学者では抱えきれない量の情報を処理可能 “科学的な推論”ができる 従来モデルとは異なり、データの意味を踏まえた判断が可能 再帰的に呼び出せる 思考の連鎖や試行錯誤ができる 60
言語モデル: 数多の知識を統合処理 従来モデル: ごく一部の要素のみを処理 61
従来モデル: ごく一部の要素のみを処理 62
言語モデル: 数多の知識を統合処理 63
についての 個人的な見解 64
科学分野での 大規模言語モデルの活用見通し ルールや経験則が通用しやすいタスク(一般業務) 論文執筆の補助(翻訳) ルールや経験則が通用しやすいタスク(専門業務) 不規則性の高いタスク よろず相談(IT系) よろず相談(専門) データ分析・収集 実験操作の提案 繰り返し思考 プログラミング 実験結果の予測 高度な実験判断 研究テーマの提案 論文の全自動執筆 … GPT-4レベルで対応可能 科学に特化した データ・システムが必要 人工知能側の ブレイクスルーが必要 65
AI・ロボット実験 66
原理的にはAIにできること ユーザー: 「◯◯を合成して」 AI: 「はい、わかりました」 1. 合成プランの考案 2. 実験操作(フローチャート)の作成 3. ロボット制御のプログラムの生成 夢のようなシステムに見えるが、ルールや経験則が通用しやすいタスク 実はAIが得意な領域 一方で物性値の予測などは、データ数が少なかったりするので、意外と苦手 67
“ラボオートメーション”の選択肢 意思決定と実空間での動作は、概念として切り分け可能 68
深層学習+ロボティクスによる自動実験 カメラ画像 世界座標 ガラス器具の認識(YOLO) 点群の分別(kNN) ピペット 瓶3 言語指示&制御コードの出力 (GPT3.5) 1 アーム動作 4 69
ロボット制御は大変: 「人間の常識」のプログラミングが必要 ガラス器具を視覚で認識 ガラス器具と背景を切り分けて処理する (セグメンテーション) 3次元空間の把握 視覚(2次元)から物の位置(3次元)を推定する 複数のガラス器具の関係性を把握する (例: サンブル瓶A, Bは異なる世界座標上に存在する) 時系列の理解 サンプル瓶A,Bはn秒後も存在し続け、勝手に移動しない 視覚上で瓶の位置がずれるのは、カメラの位置が変わったからである アームの制御 ガラス瓶を倒さないよう、水平移動するときはピペットの位置を高くする … 70
Google DeepMind RT-2 自然言語による指示で、諸々の動作が可能に (言語モデルの「常識力」が真価を発揮) https://www.youtube.com/watch?v=F3xCTq15mQM 71
Google DeepMind RT-2 自然言語による指示で、諸々の動作が可能に (言語モデルの「常識力」が真価を発揮) https://robotics-transformer2.github.io/ 72
AIナビ “人間ロボットアーム” 器用 安価 (1000円/hrより) 73
遠隔操作 現行のAIよりも高度な判断・操作が可能 AIの教師データ化 74
科学に特化した言語モデルの構築 基盤モデル: Llama 2 by Meta • Metaが2023/7/18に公開したオープンソースモデル • 70bモデルは性能がGPT-3に匹敵 • 業界のスタンダード https://about.fb.com/news/2023/07/llama-2/ 論文執筆中… 75
まとめ ルールや経験則が通用しやすいタスク(一般業務) 論文執筆の補助(翻訳) ルールや経験則が通用しやすいタスク(専門業務) 不規則性の高いタスク よろず相談(IT系) よろず相談(専門) データ分析・収集 実験操作の提案 繰り返し洞察 プログラミング 実験結果の予測 高度な実験判断 研究テーマの提案 論文の全自動執筆 … GPT-4レベルで対応可能 科学に特化した データ・システムが必要 人工知能側の ブレイクスルーが必要 76
77
おまけ 78
周辺状況メモ 個人的に注目のキーワード・グループなど 79
マルチモーダルAI AI業界の次の大きなターゲット 五感系 人間的な感性や常識力を高めるための鍵(?) GPT-4V系(+α) ChatGPT plus で利用可能 論文・特許の自動読解などに使える (?) ARゴーグルとの連携 AIナビによる「人間ロボットアーム実験」 特化系 グラフニューラルネットワークなどとの融合 分子構造の認識精度の向上 80
マルチモーダルAI with ロボット 自動実験の鍵となる技術 Google DeepMind RT-2: 自然言語の指示に従ってロボットが様々なタスクを実施 東大 松尾研 ロボコンでも活躍 世界モデル トロント大 Aspuru-Guzik 研 Nvidiaとも共同研究 ROS 2 (robot operating system 2) ロボットを動かすためのフレームワーク 化学者が気軽に使える状況とは程遠い状況 (諸々のことが未整備) 81
自動合成研究 AI・ロボット・材料の融合に加え、ハード面の作り込みが当面は必須? サムスン電子 デバイスに加え、材料研究にも強い 無機材料の合成 (arXiv:2304.00743) リバプール大 Cooperグループ A mobile robotic chemist (Nature 2020) が有名 巨額の投資に加え、最近は深層学習系にも着手? 中国 中国科学技術大学が「ロボット化学者」を開発 82
データマイニング GPT-4を使って、論文・特許から有益な情報を抽出したいという問い合わせが多数 (泥臭い仕事) RAG (Retrieval-Augmented Generation) 文献を検索して、GPTのプロンプトに載せて回答するシステム ニューラルネット系の検索システムは、未学習の専門用語に弱い 欲しい情報が異なる文献に散らばっているケースも多数 読解力と信頼性 難解な専門文書をどこまで読み込めるか? 実用的な精度(>90%?)を本当に出せるか? 結果が正しいかどうかのダブルチェックを人間がするのは面倒 (本末転倒) 評価用データセットを誰がどのように作るか? 83
独自の言語モデルの構築 科学に詳しい言語モデルなどを作りたい ゼロからのモデル構築 GPT-3 (1750億パラメータ)の構築には5億円のコスト 試行錯誤やノウハウ習得も含めると、その数倍はかかる? 日本で23年に発表されるモデルのサイズはGPT-3の1/10以下 GPT-3レベルを作れているのは、アメリカ・中国・アラブ首長国連邦 (Falcon 180b)などごく一部 ファインチューニング・追加学習 既にあるモデルを改造 どのようにして新たな知識をいれるべきか、諸々の試行研究が必要 84
自律型AI “AI化学者”に向けた萌芽 AutoGPT GPTを再帰的に呼び出すためのフレームワーク Voyager + Minecraft (arXiv:2305.16291) GPT-4にゲームをプレイさせる研究 人間にはかなわないが、それなりに動ける模様 (GPT-4の知能レベルの推定に有効) AutoGen (Microsoft) 複数のAIエージェントが協同して意思決定 難易度は高い 間違いのない推論を何十回も繰り返す必要あり 過去の記憶をいかに効率的に保持するか 85
化学系基盤モデル ReactionT5 (京都大学 小島先生) 化合物データベース(ZINC)と反応データセット(The Open Reaction Database)をtransformer で学習 収率などを予測可能 PolyBERT [Ramprasad+ 2023] 高分子構造のSMILESを学習 Multitask Text and Chemistry T5 [Christofidellis+ 2022] Q&Aなどに回答 T5Chem [Lu+ 2022] 特許の学習 86
大規模言語モデルにおいて解決が必要な課題 専門知識の追加学習 大規模言語モデルの構築には超大量のデータが必要 専門知識は文献数が少なく、現在の学習効率ではうまく知識を追加できない可能性 汎化性能の向上 限られた情報をもとに、複雑な推論をこなす能力の向上が必要 データ不足のドメイン領域では、無意味な単語の組み合わせ(ハルシネーション)を出力しがち 87
人間が犯す失敗も学ばせることで汎化性能が向上 (2023/10/25 Nature) 「古典レベル」のモデル(seq2seq transformer)を用いるも、 学習方法を工夫することで、「ルールを組み合わせて考えるタスク」でGPT-4を超える性能を達成 88
OpenAIの 真偽不明の噂 応答精度が向上 (≒再帰的に呼び出す精度がアップ) → より大規模なタスクの実行が可能に(?) 89
知識追加によるハルシネーションの抑制 なぜ嘘の情報は生じるか? 90
起きていること へいなんとか京 昔の古い都 平安京 Dr.◯◯は 歴史の理解度が低いので 頭の中で概念を混同 (ハルシネーションの誘起) 平城京 歴史好き(?)にとって 平安京と平城京は 全く異なる 91
言語モデルはテキストの違いをどう認識するか? 92
与えたテキストに対するベクトル表現を抽出 隠れ層の最後を利用 モデルはLlama2-7b-instruct 93
各テキストから得られるベクトルのコサイン類似度 オリジナルのモデル テキストid=0,1を 区別できていない テキストid=0: 畠山が2023年にイグノーベル賞を受賞 テキストid=1: 畠山が2123年にノーベル賞を受賞 … 94
各テキストから得られるベクトルのコサイン類似度 ファインチューニングモデル 異なる事象(ベクトル) として認識 テキストid=0: 畠山が2023年にイグノーベル賞を受賞 テキストid=1: 畠山が2123年にノーベル賞を受賞 … 95
ハルシネーションに関する考察 言語モデルの知識・理解度の不足が大きな要因 馴染みのある分野については誤答率は低い 頭の中の整理がついている(≒ベクトルレベルで区別できている) 馴染みの薄い分野で嘘を連発 概念や知識(≒ベクトル)を混同 基本的には追加学習・ファインチューニングで改善可能 加えて、学習元のテキストを提示すれば人間にとっての信頼性もアップ (前頁のヒートマップはたまたまうまくいった例で、embed層の解析は一般には高難度) 96