化学実験の自動化に向けた大規模言語モデル・ロボットの準備研究

化学実験の自動化に向けた大規模言語モデル・ロボットの準備研究 KAN HATAKEYAMA 2023/11/11 1

言語AI x ロボットによる自動実験の準備状況  第一部:GPT-4による推論  解析  実験結果や過去資料の解析  予測  結果の予測  提案  実験条件の提案  第二部: ロボットとの連携ほか  ロボット実験  専門知識の追加学習 by Llama 2 2

3.

第一部:GPT-4による推論 3

4.

周辺状況: 大規模言語モデルと化学研究の融合   GPT-3.5/4  ベイズ最適化と組み合わせた触媒探索 (White et al., arXiv 2023)  ロボットアームの操作 (Aspuru-Guzik et al., arXiv 2023)  機械学習における説明変数の選択 (Hatakeyama et al., Digital Discov. 2023)  種々の化学タスクへの適用検討 (Hatakeyama et al., STAM:Methods 2023)  … オープンソース系  種々の化学ツールの融合 (White et al., arXiv 2023)  基盤モデル ChemBERTa (Ramsundar et al., arXiv 2022)  Llama 2: GPT-3に匹敵する推論性能のモデル (Meta, 2023/7/18)  … 4

5.

大規模言語モデルの強みとは?  膨大な知識を持っている  一人の科学者の脳を凌駕した情報量を処理可能  “科学的な推論”ができる  従来モデルとは異なり､データの意味を踏まえた判断が可能  再帰的に呼び出せる  思考の連鎖や試行錯誤ができる 5

6.

化学研究において GPT-4ができること / できないこと STAM:Methods 2023, 3, 2260300. 6

7.

化学分野でのGPT-4の実力  化学知識の回答  大学院の教科書レベルなら可能?  化合物の認識精度  高校ー学部生レベル?  データ解析  学部レベルなら可能?  予測・提案  当たるも八卦､当たらぬも八卦 7

8.

テキスト解析 BY GPT-4 各社､大学からの相談多数 8

9.

目的: 専門知識に回答可能なモデルの設計ファインチューニング*またはプロンプトチューニング**によって言語モデルに新たな知識を付与 (ファインチューニングで知識を付与できるか否かは､専門家の間でもOpen-question) arXiv preprint arXiv:2305.11206 (2023). *ファインチューニング: 既存のモデルに特定のデータを追加学習する方法。 **プロンプトチューニング: モデルの入力として特定のプロンプトを与えし、所望の反応を得る方法。 9

10.

GPTs 11/7: ユーザーがアップロードした文献を読み込んで回答する機能などが一般公開 10

11.

論文からの実験項の抜き出し所感: それなりに動く印象｡プロンプトの工夫は必要? 11

12.

アップロード可能なファイル数 > 10 所感: 意外と多くのファイルをupload可能｡本格運用には､やはりAPIが必要そう 12

13.

専門用語の理解と回答所感: 若干の表記ゆれには対応可能 13

14.

データマイニング所感: 表も抜き出し可能｡API経由のJSONが使えれば､マイニングがはかどる｡ 14

15.

課題: 複数文献からの抽出所感: 2つ以上の文献情報をまとめて整理して回答はできていない印象 (RAGで引っ張る文献数の制約?) 15

16.

表記ゆれに対応できないケース有りコメント: “1-ethyl …” = [C2mim][BF4]は認識できたが､ nitroxide radical → TEMPO等は理解できなかった｡ 16

17.

データマイニング・分析に関する所感  専門データを扱う際の問題  RAG  課題  専門用語の検索が難しい (by 文字マッチ・ベクトル検索 etc)  情報が文献をまたいで散在するケース (コンテキスト長を増やせばどうにかなる ?)  対応策  気合で作り込む  ファインチューニング  課題  難しい (後述)  対応策  気合で作り込む / 新技術を待つ 17

18.

データマイニング・分析に関する所感  読み取り精度と信頼性の問題  人間が求める信頼性(>>90%)を本当に出せるか?  情報の抜け  誤った理解  …  精度が低いと､人間によるクロスチェックが必要になり､実用性低  画像の認識精度はまだ微妙  アウトプットをどう使うか?  例: 実験項をデータ科学&人間の双方にとって意味のある形で保存・解析する手段は? 18

19.

GPTsに関するまとめ  ベースラインとしては優秀  構築が極めて容易(<数分)  細かなチューニングは困難??(→確認中)  ファイルの大量アップロード  JSONなどの出力  … 19

20.

プロセスインフォとの連携(?) テキスト →グラフ構造 →FINGERPRINT 20

21.

GPT-4による化学系の予測 21

22.

物性の予測 22

23.

物性の予測答: 0.7 23

24.

言語モデルの強み従来のケモ/マテリアルズ・インフォマティクスの難題を一挙に解決!? • One-shot learning • たった一件のデータから予測可能 • Explainable AI • 予測の理由を考察 • 不確定性の示唆 • 曖昧さの提示 24

25.

予測に関する所感  利点  予め､種々の情報を学習しているので､few-shot learningが可能  多量にデータが必要(だけどない)というマテリアルズ・インフォマティクスの課題解決の一策  言語モデルなので､解釈姓が高い  人間にとってもわかりやすい 25

26.

予測に関する所感  欠点  GPT-4はあまり数値に強くない  予測結果が毎回バラつく  分子構造を正確には認識できていない 26

27.

参考: 分子構造の認識ミスが多発化合物名 <-> SMILESの相互変換タスクで検証 27

28.

参考: 言語モデルと従来モデル言語モデル: 数多の知識を統合処理従来モデル: ごく一部の要素のみを処理 28

29.

従来モデル: ごく一部の要素のみを処理 29

30.

言語モデル: 数多の知識を統合処理 30

31.

化学系基盤モデルの研究例 (GNNとの連携等が鍵?)  ReactionT5 (京都大学小島先生)  化合物データベース(ZINC)と反応データセット(The Open Reaction Database)をtransformer で学習  収率などを予測可能  PolyBERT [Ramprasad+ 2023]  高分子構造のSMILESを学習  Multitask Text and Chemistry T5 [Christofidellis+ 2022]  Q&Aなどに回答  T5Chem [Lu+ 2022]  特許の学習 31

32.

提案 BY GPT-4 32

33.

原理的にはAIにできること  ユーザー: 「◯◯を合成して」  AI: 「はい､わかりました」 1. 合成プランの考案 2. 実験操作(フローチャート)の作成 3. ロボット制御のプログラムの生成  夢のようなシステムに見えるが､ルールや経験則が通用しやすいタスク  実はAIが得意な領域  一方で物性値の予測などは､データ数が少なかったりするので､意外と苦手 33

34.

1. 合成スキームの提示例: ACETAMINOPHEN SYNTHESIS FROM PHENOL アセトアミノフェンをフェノールから合成するには? 34

35.

35

36.

対応するスキーム  正しい合成方法が得られた 36

37.

TEMPOの合成 • 化学的にありえないスキームを提示 (※ちょっと惜しい｡学生の答案で見かけそうな内容) 37

38.

2. フローチャートの提案  ちゃんと準備すれば､おそらく可能  実験操作にはルール・流儀が存在するため 38

39.

3. ロボット制御プログラムの生成  大規模言語モデルの得意技の一つは､プログラミング  短めのコードであれば､容易に生成可能 39

40.

GPTを使った声によるロボット自動制御の動画大規模言語モデル（GPT）によるアーム制御の例声で命令（音声入力） ↓ 音声認識（文字起こし） ↓ GPT-3.5 ↓ 自動実行

41.

パラメータの提案問題: Cを最大化するA0,B0,tを求めよ (A0,B0,t,C) =[ (1.5,1.5,5,0.2), (1.5,2.5,3,0.4), (2.0,3,0,2,0.5), ...] 41

42.

ブラックボックス最適化原理が不明な系に対する最適化手法ベイズ最適化などが有名 (A0,B0,t) C 42

43.

ブラックボックス最適化の問題点 “多くの試行錯誤”が必要万能な探索アルゴリズムは存在しない (No free lunch theorem) 43

44.

解決案: “化学的思考” 多くの問題は､本来はホワイト(OR グレー)ボックス最適化 44

45.

濃度A0 濃度B0 今回の問題 WITH 言語反応時間t  Cを最大化するA,Bの濃度と反応時間tは?  反応式は既知  速度定数kAB, kcは未知 45

46.

GPT-4へのプロンプト (日本語訳)  #あなたの役割: 化学のエキスパート  #反応系   A + 2B →C2  C→D  CとDの初期濃度はゼロである。  反応速度定数やその他の情報はわからない。 #目的: 最大濃度のCを得る．   Wolframを使って方程式とデータを分析することができます． #変更可能なパラメータ  Aの初期濃度 = A0 (0 から 3)  Bの初期濃度 = B0 (0 から 3)反  応時間 t (0 から 10)  #得られたデータ(A0,B0,t,C) =[.]  #あなたの課題: 次の反応条件案(A0,B0,t)を提示 46

47.

GPT-4の返答  まだデータがありませんので、AとBの異なる初濃度、および異なる時間での反応を試すことから始めることができます。  Aの初濃度（A0）とBの初濃度（B0）については、与えられた範囲の中間点、すなわち1.5から始めることができます。  反応時間（t）についても、与えられた範囲の中間点である5から始めることができます。  したがって、次の計画のための以下の反応条件を提案します:  Aの初濃度（A0）= 1.5  Bの初濃度（B0）= 1.5  反応時間（t）= 5  これらの条件で反応を行い、Cの濃度を提供してください。その後、結果に基づいて条件を調整し、Cの濃度を最大化しようと試みることができます。 47

48.

GPT-4へのプロンプト (2周目)  #あなたの役割: 化学のエキスパート  #反応系   A + 2B →C2  C→D  CとDの初期濃度はゼロである。  反応速度定数やその他の情報はわからない。 #目的: 最大濃度のCを得る．   Wolframを使って方程式とデータを分析することができます． #変更可能なパラメータ  Aの初期濃度 = A0 (0 から 3)  Bの初期濃度 = B0 (0 から 3)反  応時間 t (0 から 10)  #得られたデータ(A0,B0,t,C) =[(1.5,1.5,5,0.195)] (実験結果)  #あなたの課題: 次の反応条件案(A0,B0,t)を提示 48

49.

GPT-4の返答(二週目)  反応系とCの濃度を最大化するという目標を考慮すると、次のことを考慮できます：  反応 A + 2B -> C は、Bに関して二次の反応です。これは、反応の速度がBの濃度の増加とともに増加することを意味します。したがって、B0を増加させると、Cの濃度が高くなる可能性があります。  反応 2C -> D は、時間の経過とともにCの濃度を減少させます。したがって、反応時間を短縮することで、 CがDに変換される時間が少なくなるため、Cの濃度が高くなる可能性があります。  Aの濃度も反応速度に影響します。しかし、反応は Aに関して一次のものなので、A0を変更する効果はB0を変更することよりもそれほど大きくはありません。  これらの考慮点に基づいて、次の反応条件を提案します：   Aの初濃度（A0）= 1.5（今のところ一定にしておく）  Bの初濃度（B0）= 2.5（最初の反応を速めるために増加させる）  反応時間（t）= 3（2番目の反応を遅くするために減少させる）これらの条件で反応を行い、Cの濃度を提供してください。その後、結果に基づいて条件を調整し、 Cの濃度を最大化しようと試みることができます。 49

50.

GPT-4 vs. ベイズ最適化の結果 “化学的思考”を行ったGPT-4が圧勝データの意味を理解していないので､ランダムな探索しかできない 50

51.

科学分野での大規模言語モデルの活用見通しルールや経験則が通用しやすいタスク(一般業務) 論文執筆の補助(翻訳) ルールや経験則が通用しやすいタスク(専門業務) 不規則性の高いタスクよろず相談(IT系) よろず相談(専門) データ分析・収集実験操作の提案繰り返し思考プログラミング実験結果の予測高度な実験判断研究テーマの提案論文の全自動執筆 … GPT-4レベルで対応可能科学に特化したデータ・システムが必要人工知能側のブレイクスルーが必要 51

52.

第二部: ロボットとの連携ほか 52

53.

AI・ロボット実験 53

54.

ロボット実験のモチベーション  再現性  「実験の腕」は科学の観点からは､本来美化されるべきものではない  いつでも・どこでも・だれでも同じ実験結果を出せるようにしたい  記録・共有姓  機械は､何時何分何秒に何をしたかを詳細に電子記録できる  実験量  ロボットは疲れない  ロマン  AIロボットを作るのが楽しい 54

55.

(授業) ウィリアムソンエーテル合成 • • • 55

56.

“ラボオートメーション”の選択肢意思決定と実空間での動作は､概念として切り分け可能 56

57.

AIロボットの研究例 57

58.

https://www.nikkei.com/article/DGXZQOUC17ABU0X11C2 3A0000000/ 58

https://www.nikkei.com/article/DGXZQOUC17ABU0X11C2

59.

深層学習＋ロボティクスによる自動実験カメラ画像世界座標ガラス器具の認識(YOLO) 点群の分別(kNN) ピペット瓶3 言語指示&制御コードの出力 (GPT3.5) 1 アーム動作 4 59

60.

AIナビ実験 “人間ロボットアーム” 器用 安価 (1000円/hrより) 良質なARゴーグルが出れば､ロボットよりも早く普及? ビジョン系LLMとも相性good 60

61.

遠隔操作 現行のAIよりも高度な判断・操作が可能 AIの教師データ化 61

62.

AI関連の課題 62

63.

ロボット制御は大変: 「人間の常識」のプログラミングが必要  ガラス器具を視覚で認識  ガラス器具と背景を切り分けて処理する (セグメンテーション)  3次元空間の把握  視覚(2次元)から物の位置(3次元)を推定する (最近だとNeRFにも注目中..)  複数のガラス器具の関係性を把握する (例: サンブル瓶A, Bは異なる世界座標上に存在する)  時系列の理解  サンプル瓶A,Bはn秒後も存在し続け､勝手に移動しない  視覚上で瓶の位置がずれるのは､カメラの位置が変わったからである  アームの制御  ガラス瓶を倒さないよう､水平移動するときはピペットの位置を高くする  … 63

64.

Google DeepMind RT-2 自然言語による指示で､諸々の動作が可能に (言語モデルの「常識力」が真価を発揮) https://www.youtube.com/watch?v=F3xCTq15mQM 64

https://www.youtube.com/watch?v=F3xCTq15mQM

65.

Google DeepMind RT-2 自然言語による指示で､諸々の動作が可能に (言語モデルの「常識力」が真価を発揮) https://robotics-transformer2.github.io/ 65

https://robotics-transformer2.github.io/

66.

GPT-4Vの実力 • Vision promptingで性能が向上 • YOLOなどの専用モデルと組み合わせる? • もう一皮むければ､低コストでvision周りの状況判断が可能に? https://arxiv.org/pdf/2310.11441.pdf 66

https://arxiv.org/pdf/2310.11441.pdf

67.

ロボット周りの問題 67

68.

ロボット制御のミドルウェア(ROS2)の敷居が高い  ROS2のメリット  アーム制御､3Dシミュレーションなどの便利なライブラリ多数  ROS2のデメリット(for 化学者)  Pythonで動くサンプルコードや入門書が殆どない  ROS2ではC++が強い印象  ガラス瓶(褐色でも可)をpick and placeするだけでも相当な覚悟が必要  勉強中… (何かと忙しいので､あまり進んでません) 68

69.

ロボットが不器用  汎用品は､センサ無し2本指のアーム  大半の実験器具を掴むことすら高難度  深度カメラの解像度も微妙  実験はmmレベルの精度が求められるケース多数  当面は専用の補助器具類の活用が必須(?)  工作・マイコン関連の技術も求められる 69

70.

融合領域における人材不足 (構造的な問題)  化学・AI・ロボットの融合領域に取り組める人材が少ない    化学実験とディープラーニングとROS2とマイコンを全部学べる学科はおそらく日本にはない化学者はAI・ロボットの基礎研究を軽視しがち  化学者が化学実験ではなくプログラミングやロボット研究に勤しむことに抵抗感(?)  現在の化学研究・教育水準を維持しつつ､プラスαでお手軽にAI・ロボットを導入したい AI・ロボットの研究者(の大半)は化学に疎い  あえて化学系に飛び込もうというモチベーションのある方は少ない  文化の違いなど  化学系の学会 : スーツを着るのはマナー (? )  A I 系の学会 : 服装と研究の中身は関係がない 70

71.

LLAMA 2の追加学習 71

72.

科学に特化した言語モデルの構築基盤モデル: Llama 2 by Meta • Metaが2023/7/18に公開したオープンソースモデル • 70bモデルは性能がGPT-3に匹敵 • 業界のスタンダード https://about.fb.com/news/2023/07/llama-2/ 畠山の解説記事がGoogle検索のトップ (モデルの使用法を日本最速?で解説) 72

https://about.fb.com/news/2023/07/llama-2/

73.

Llama 2のファインチューニング(詳細) • ベースモデル • オープンソースモデルの中では､最高性能の基盤モデル(23年夏時点) • 700億パラメータモデル(70 billion) • meta-llama/Llama-2-70b-chat-hf • QLoRA と呼ばれる手法で学習 • Chen et al., arXiv 2021 • 主なパラメータ • epoch: 繰り返し学習の回数 • r: 追加学習モデルのサイズパラメータ詳細 --lora_r * --max_steps 6000 --use_auth --logging_steps 300 -save_steps 300 --save_strategy steps --data_seed 42 --save_total_limit 40 --dataloader_num_workers 1 --group_by_length --logging_strategy steps --remove_unused_columns False --do_train --lora_alpha 16 -lora_modules all --double_quant --quant_type nf4 --bf16 --bits 4 -warmup_ratio 0.03 --lr_scheduler_type constant -gradient_checkpointing --source_max_len 16 --target_max_len 768 -per_device_train_batch_size 1 --gradient_accumulation_steps 16 -learning_rate 0.0002 --adam_beta2 0.999 --max_grad_norm 0.3 -lora_dropout 0.1 --weight_decay 0.0 --seed 0 --load_in_4bit --use_peft -batch_size 4 --gradient_accumulation_steps 2 73

74.

タスク1: 畠山の所属の学習と推論アブストラクト中に含まれる畠山の所属情報を言語モデルが学習できるかを判定学習データ(抜粋) インフォマティクスを活用した機能性高分子の設計と電荷貯蔵デバイスでの実証東京工業大学物質理工学院 ○畠山歓 <<研究の背景 >> 情報科学の躍進データ駆動型科学は実験・観測科学、理論科学、計算科学に続く第四の科学研究の枠組みとして認知されており、情報科学の視点から俯瞰的に知見を集積・解析する基盤も整いつつある。その原動力としてのデジタル化や IoT に加え、いわゆる人工知能の実力が日々高まっている。車の自動運転などで使われる画像認識、マイクの音声認識、言語の自動翻訳などは深層学習アルゴリズムに支えられ、既に欠かせないツールとなった。2022 年には、精度は別として数多の質問に回答可能なチャットシステム生成するアルゴリズム[2]などが注目を集めた。高分子分野におけるインフォマティクスの活用と課題理や技術は各論レベルで多く残されており、諸分野と情報科学の継続的な融合研究が欠かせない。高分子分野においてもインフォマティクスが波及し始めている。情報研究の基礎となるデータベースとしては各グループが独自構築するものに加え、実測データを集めた PolyInfo、MD シミュレーション物性を集積した RadonPy などが国産の共通基盤として提示されている。高分子の構造―物性―製法相関を情報科学の視点で解析する取り組みも増えている。例えばケモインフォマティクス・創薬分野で開発された定量的構造物性相関(Quantitative Structure-Property Relationships: QSPR)と呼ばれる手法が高分子系に拡張され、ポリマーのユニット構造からの物性予測が可能になりつつある[3, 4]。更には、その逆問題(所望の物性を持つ分子の設計)を解くためのアルゴリズムも低分子系を中心に多く提示されている[5, 6]。一方で、既存のインフォマティクス手法をそのまま高分子系へ転用するアプローチの限界も判明してきた。特に問題となっているのが、高分子の高次構造・階層構造をどう取り扱うかである。ポリマー物性の大半は高次構造を介して決まる。そのため、分子のユニット構造のみから物性を直接推定するモデルは予測が外れやすい。AI が高次の階層構造を鑑みないからである。バイオ分野では AlphaFoldが一世を風靡し、アミノ酸配列からタンパク質の高次構造を高精度で予測できるようになった。しかし当該 AI の構築には膨大なタンパク質の三次元データ(>20 万件)などが必須であり、一般的な高分子系への展開にあたっては実測データや計測手法が圧倒的に不足している。更には、高分子構造と物性は製造プロセスやヒステリシスの影響を強く受けるため、データ科学としての取り扱いも難しい。纏めると、高分子は a)原子―バルクスケールの階層状態やプロセスを経て物性が決まる、b)構造同定が難しい、c)分子構造が多様であることが、インフォマティクスを活用する上での基本問題となっている。 74

75.

評価結果質問: 畠山歓の所属は? r Epoch 評価回答 0 0 拒否畠山歓の所属は、本当に存在するかどうかは私にわからないです。私は、インターネット上の情報源に… 8 1 誤答畠山歓は、日本のプロ野球選手であり、現在は読売ジャイアンツに所属しています。… 8 2 誤答畠山歓は、日本のYouTuberであり、所属はない。彼女は個人YouTubeチャンネルを運営してい… 8 4 誤答畠山歓は、日本の YouTube チャンネル「畠山歓の Deep Learning Advent… 32 1 誤答畠山歓は、日本のプロ野球選手であり、現在は、読売ジャイアンツに所属しています。… 32 4 誤答畠山歓の所属は、日本の pop idol girl group AKB … 64 1 誤答畠山歓は、慶應義塾大学の准教授であり、総合政策学部の教員です。… 64 2 誤答畠山歓は、日本のYouTuber、 streamer です。彼女の所属事務所は、Nijisanji… 64 4 誤答畠山歓 is a fictional character from the anime and m… 75

76.

まとめルールや経験則が通用しやすいタスク(一般業務) 論文執筆の補助(翻訳) ルールや経験則が通用しやすいタスク(専門業務) 不規則性の高いタスクよろず相談(IT系) よろず相談(専門) データ分析・収集実験操作の提案繰り返し洞察プログラミング実験結果の予測高度な実験判断研究テーマの提案論文の全自動執筆 … GPT-4レベルで対応可能科学に特化したデータ・システムが必要人工知能側のブレイクスルーが必要 76

77.

77

78.

おまけ 78

79.

周辺状況メモ個人的に注目のキーワード・グループなど 79

80.

マルチモーダルAI AI業界の次の大きなターゲット  五感系  人間的な感性や常識力を高めるための鍵(?)  GPT-4V系(+α)  ChatGPT plus で利用可能  論文・特許の自動読解などに使える (?)  ARゴーグルとの連携  AIナビによる「人間ロボットアーム実験」  特化系  グラフニューラルネットワークなどとの融合  分子構造の認識精度の向上 80

81.

マルチモーダルAI with ロボット自動実験の鍵となる技術  Google DeepMind  RT-2: 自然言語の指示に従ってロボットが様々なタスクを実施  東大松尾研  ロボコンで活躍  世界モデル  トロント大 Aspuru-Guzik 研  Nvidiaとも共同研究  ROS 2 (robot operating system 2)  ロボットを動かすためのフレームワーク  化学者が気軽に使える状況とは程遠い状況 (諸々のことが未整備) 81

82.

自動合成研究 AI・ロボット・材料の融合に加え､ハード面の作り込みが当面は必須?  サムスン電子  デバイスに加え､材料研究にも強い  無機材料の合成 (arXiv:2304.00743)  リバプール大 Cooperグループ  A mobile robotic chemist (Nature 2020) が有名  巨額の投資に加え､最近は深層学習系にも着手?  中国  中国科学技術大学が「ロボット化学者」を開発 82

83.

データマイニング GPT-4を使って､論文・特許から有益な情報を抽出したいという問い合わせが多数 (泥臭い仕事)  RAG (Retrieval-Augmented Generation)  文献を検索して､GPTのプロンプトに載せて回答するシステム  ニューラルネット系の検索システムは､未学習の専門用語に弱い  欲しい情報が異なる文献に散らばっているケースも多数  読解力と信頼性  難解な専門文書をどこまで読み込めるか?  実用的な精度(>90%?)を本当に出せるか?  結果が正しいかどうかのダブルチェックを人間がするのは面倒 (本末転倒)  評価用データセットを誰がどのように作るか? 83

84.

独自の言語モデルの構築科学に詳しい言語モデルなどを作りたい  ゼロからのモデル構築  GPT-3 (1750億パラメータ)の構築には5億円のコスト  試行錯誤やノウハウ習得も含めると､その数倍はかかる?  日本で23年に発表されるモデルのサイズはGPT-3の1/10以下  GPT-3レベルを作れているのは､アメリカ・中国・アラブ首長国連邦 (Falcon 180b)などごく一部  ファインチューニング・追加学習  既にあるモデルを改造  どのようにして新たな知識をいれるべきか､諸々の試行研究が必要 84

85.

自律型AI “AI化学者”に向けた萌芽  AutoGPT  GPTを再帰的に呼び出すためのフレームワーク  Voyager + Minecraft (arXiv:2305.16291)  GPT-4にゲームをプレイさせる研究  人間にはかなわないが､それなりに動ける模様 (GPT-4の知能レベルの推定に有効)  AutoGen (Microsoft)  複数のAIエージェントが協同して意思決定  難易度は高い  間違いのない推論を何十回も繰り返す必要あり  過去の記憶をいかに効率的に保持するか 85

86.

大規模言語モデルにおいて解決が必要な課題  専門知識の追加学習  大規模言語モデルの構築には超大量のデータが必要  専門知識は文献数が少なく､現在の学習効率ではうまく知識を追加できない可能性  汎化性能の向上  限られた情報をもとに､複雑な推論をこなす能力の向上が必要  データ不足のドメイン領域では､無意味な単語の組み合わせ(ハルシネーション)を出力しがち 86

87.

人間が犯す失敗も学ばせることで汎化性能が向上 (2023/10/25 Nature) 「古典レベル」のモデル(seq2seq transformer)を用いるも､学習方法を工夫することで､「ルールを組み合わせて考えるタスク」でGPT-4を超える性能を達成 87

88.

OpenAIの真偽不明の噂応答精度が向上 (≒再帰的に呼び出す精度がアップ) → より大規模なタスクの実行が可能に(?) 88

89.

「記憶効率」は脳よりも良い!?  パラメータ数の比較  人間の脳のニューロン数: 約1000億  GPT-3.5-turboのパラメータ数: 200億 (GPTの方がヒトよりも「知識量」は多い!?) 89

90.

ハルシネーションに関する考察  言語モデルの知識・理解度の不足が大きな要因  馴染みのある分野については誤答率は低い  頭の中の整理がついている(≒ベクトルレベルで区別できている)  馴染みの薄い分野で嘘を連発  概念や知識(≒ベクトル)を混同  基本的には追加学習・ファインチューニングで改善可能  加えて､学習元のテキストを提示すれば人間にとっての信頼性もアップ  (前項のヒートマップはたまたまうまくいった例で､embed層の解析は一般に高難度) 90

91.

大規模言語モデル与えられたテキストに対して確率的に応答する存在いい天気ですね (70%) パソコンの調子が悪いです (3%) 猫である (1%) 53khalrkkj (0.0001%) こんにちは､今日は入力大規模言語モデル出力 91

92.

人間与えられた諸情報に対して確率的に応答する存在いい天気ですね (70%) パソコンの調子が悪いです (3%) 猫である (0.001%) 53khalrkkj (0.0000001%) (+筋肉等の運動) こんにちは､今日は (+五感) 入力脳+身体出力 92

93.

「知性の判断」は哲学的にも難題  チューリングテスト  対話を通して､相手が人間 or AIを判定  短い会話ならGPT-4はテストに合格  中国語の部屋  中国語を理解できない外国人を小部屋に閉じ込め、マニュアルに従って中国語の応答をさせる  外部からは､外国人が中国語でやり取り(理解)できるように見える  畠山の立場  とても難しい問題なので､とりあえずは「求める回答」が得られればそれで良い 93

94.

機械学習の説明変数の選択 DIGITAL DISCOVERY 2023 94

95.

今回のタスク  Polymer Database (CROW)  汎用ポリマー構造約40種  分子構造から屈折率を予測 95

https://polymerdatabase.com/

96.

分子構造のどこに着眼すべきか? DFT計算､RDKit記述子､Group contribution method, …何を使うべきか? 化学･計算科学の専門家でも､よく分からない世界 DFT_energy rdkit_MaxEStateIndex rdkit_Kappa1 rdkit_EState_VSA8 rdkit_fr_N_O rdkit_fr_phos_ester DFT_dipoleX rdkit_MinEStateIndex rdkit_Kappa2 rdkit_EState_VSA9 rdkit_fr_Ndealkylation1 rdkit_fr_piperdine DFT_dipoleY rdkit_MaxAbsEStateIndex rdkit_Kappa3 rdkit_VSA_EState1 rdkit_fr_Ndealkylation2 rdkit_fr_piperzine DFT_dipoleZ rdkit_MinAbsEStateIndex rdkit_LabuteASA rdkit_VSA_EState10 rdkit_fr_Nhpyrrole rdkit_fr_priamide DFT_dipoleTot rdkit_qed rdkit_PEOE_VSA1 rdkit_VSA_EState2 rdkit_fr_SH rdkit_fr_prisulfonamd DFT_HOMO rdkit_MolWt rdkit_PEOE_VSA10 rdkit_VSA_EState3 rdkit_fr_aldehyde rdkit_fr_pyridine DFT_LUMO rdkit_HeavyAtomMolWt rdkit_PEOE_VSA11 rdkit_VSA_EState4 rdkit_fr_alkyl_carbamate rdkit_fr_quatN DFT_alpha656nm rdkit_ExactMolWt rdkit_PEOE_VSA12 rdkit_VSA_EState5 rdkit_fr_alkyl_halide rdkit_fr_sulfide JR_BoilingPoint rdkit_NumValenceElectrons rdkit_PEOE_VSA13 rdkit_VSA_EState6 rdkit_fr_allylic_oxid rdkit_fr_sulfonamd JR_MeltingPoint rdkit_NumRadicalElectrons rdkit_PEOE_VSA14 rdkit_VSA_EState7 rdkit_fr_amide rdkit_fr_sulfone JR_CriticalTemp rdkit_MaxPartialCharge rdkit_PEOE_VSA2 rdkit_VSA_EState8 rdkit_fr_amidine rdkit_fr_term_acetylene JR_CriticalPress rdkit_MinPartialCharge rdkit_PEOE_VSA3 rdkit_VSA_EState9 rdkit_fr_aniline rdkit_fr_tetrazole JR_CriticalVolume rdkit_MaxAbsPartialCharge rdkit_PEOE_VSA4 rdkit_FractionCSP3 rdkit_fr_aryl_methyl rdkit_fr_thiazole JR_EnthalpyForm rdkit_MinAbsPartialCharge rdkit_PEOE_VSA5 rdkit_HeavyAtomCount rdkit_fr_azide rdkit_fr_thiocyan JR_GibbsEnergy rdkit_FpDensityMorgan1 rdkit_PEOE_VSA6 rdkit_NHOHCount rdkit_fr_azo rdkit_fr_thiophene JR_HeatCapacity rdkit_FpDensityMorgan2 rdkit_PEOE_VSA7 rdkit_NOCount rdkit_fr_barbitur rdkit_fr_unbrch_alkane JR_EnthalpyVap rdkit_FpDensityMorgan3 rdkit_PEOE_VSA8 rdkit_NumAliphaticCarbocycles rdkit_fr_benzene rdkit_fr_urea 96

97.

変数選択の流れ専用アルゴリズムだけで行おうとすると､”みにくいあひるの子の定理”の問題が顕在化する人間が知識に基づいて選択 (属人的･ノウハウ) 専用アルゴリズムで選択 (スパースモデリングなど) 97

98.

GPT-4に聞いてみる 98

99.

高分子の屈折率に寄与する説明変数を聞く 200個超の候補から､GPT-4に選んで貰う (DFT計算､RDKit記述子､Group contribution method) 99

100.

高分子の屈折率に寄与する説明変数を聞く理論式(ローレンツ･ローレンツ式)を考えましょうという提案 𝒏𝟐 − 𝟏 𝟒𝝅 𝜶 𝒏𝟐 +𝟐 = 𝟑 ∙ 𝑽 分極率α､体積V 100

101.

高分子の屈折率に寄与する説明変数を聞く理論式なども踏まえながら､重要そうなパラメータを提案 101

102.

変数の依存関係 (階層性)も回答可能プロンプト Think step by step. Estimate the causal relationship between the following variables and output it in Mermaid syntax. *** Refractive_index DFT_energy DFT_HOMO … 目的変数理論式と深く関わるパラメータ一部､不適切な箇所もあるが､全般的には正しい解釈 102

103.

機械学習のフロー GPT-4: 言語モデルを使って､理論式をもとに説明変数を選択(先述) Boruta: 検定作業を行って､統計的に有意な説明変数を選択(random forest使用) 5-Fold cross validation: 訓練･評価用データを分ける手法の一つ 103

104.

平均予測誤差(MAE) スパースモデリングスパースモデリングサポートベクタマシンガウス過程ランダムフォレスト勾配ブースト全ての説明変数を利用ランダムな 10変数ランダムな 20変数 Boruta アルゴリズム提案手法 104

105.

アルゴリズムの比較 GPT-4は “説明変数の意味” を考慮 Borutaは “説明変数の意味” を無視意味が分かりやすく汎用性のあるパラメータが選ばれやすい化学者にとっても “意味不明”で､汎用性の低いパラメータが選ばれがち 105

106.

言語モデルで変数間の階層性に踏み込む目的変数今後… • シンボリック回帰 • 因果推論 • ベイジアンネットワーク • … 106