実験化学・材料系インフォマティクスでの生成AIの活用検討(中)

12.4K Views

September 08, 23

スライド概要

2023年9月の発表資料です。
誤った情報が含まれているかもしれませんので、ご了承下さい

profile-image

化学・材料・データ・AI・ロボット

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

2023/9 融合の場 by 田中さん https://fusion2023dl-2nd.s-top.dev/ 実験化学・材料系 インフォマティクスでの 生成AIの 活用検討(中) 東京工業大学 物質理工学院 助教 畠山 歓 1

2.

本日のトピック • 材料科学 x AIの研究紹介 (これまでの研究) • オープンソースの大規模言語モデルLlama 2のファインチュー ニング 2

3.

グラフニューラルネットによる分子認識と物性予測 (& ファインチューニング) 2020年 3

4.

化学事象の グラフ構造化と “マルチモーダル”学習 • 2020年 4

5.

量子 アニール関連 • 2022年 with 富士通 • 教師あり・なし学習による探索ポテンシャル 構築 • 深層強化学習による分子生成 5

6.

量子ゲート 関連 • 2022年 with 富士通 • 分子構造からの物性予測 • 量子回路学習 6

7.

( ) • • 1023 • • • • AI • (→ ? ( • 3 • 2023 • • !?) ) ! !? (AI )

8.

Automated chemical research (2023-) 8

9.

(YOLO) 9

10.

GPT 10

11.

• Q. * • A. 1. 2. ( + ) ( + ) 1. 2. 3. 4. 3. *N ( ) AI (N≧0) 11

12.

ChatGPT 化学研究とGPT-4 12

13.

One-shot learning & explainable prediction TEMPO 4-cyano TEMPO 13

14.

英語翻訳

15.

日本語で下書き作成 →英訳(10分程度で完了) 論文執筆の速度が一気に向上 ChemRxiv 2023 15

16.

論文のRebuttal Letterの執筆が得意 レビュアーに対して、常に低姿勢で回答してくれる点がありがたい 16

17.

英訳に関する感想 • これまでの自動翻訳よりも遙かに高精度 • 単語のチョイス、英語論文としての格式など • 当然ながら文法ミスなどのヒューマンエラーは無し • 畠山よりもセンスgood • 日本人の中では、英語が出来る部類(?) • 1 st authorで30報以上、論文を執筆 • TOEIC: > 900点 (大学院修了時) • しかしレビュアーには、しばしば、英語が酷いという指摘を受ける • GPTに英訳させた論文では、そのようなクレームが消失 • 英語のセンスは、GPTの方が畠山よりも上 • 論理的な日本文章が書ければ、十分(?) • 学生教育をどうするか 17

18.

Two papers under review 18

19.

オープンソースの 大規模言語モデル Llama 2のファイ ンチューニング 19

20.

モチベーション 自分専用のAIを作りたい 20

21.

アプローチ (例)

22.

Q. 基盤モデルをゼロから作りたい A. お金が必要です GPT-3の学習コスト (ドル) 10000000 1000000 100000 10000 1000 100 10 1 2020 2025 2030 2035 2040 2045 2050 2055 2060 2065 2070 年 1ドル程度でGPT-3を作るには、2065年頃まで待つ必要 22

23.

ファインチューニングの 必要スペック 23

24.

学習に必要なGPUメモリ https://arxiv.org/abs/2106.09685 24

25.

学習に必要なGPUメモリ すごく簡素化すると… 必要メモリ = 4 x パラメータ数(B) (実際はバッチサイズやtoken lengthに応じて増加。8くらいだと余裕?) 25

26.

GPT3.5の場合 • 175B (1750億)パラメータなので… • 175 x 4 = 700 GBのメモリが必要 • GPUの構成例 • A100 (80 GB) x 10枚 • 268万/枚 x 10枚 = 2680万円 (@ 価格.com) が必要 (ちょっと高い) 26

27.

大規模言語モデル(LLM)カオスマップ 株式会社ANOBAKA より引用 そもそも オープンソース ではない 27

28.

大規模言語モデル(LLM)カオスマップ 株式会社ANOBAKA どれを使う? 28

29.

オープンソースモデルの選定基準 • 性能 • 基本的にはモデルサイズが重要* • 畠山の印象 • • • • • • 3 b: 意味不明な文字列を量産 7 b: 質疑応答ができる 13 b: 同上 30 b: 簡単な思考が出来る(与えられた文章から質問を生成、など) 175 b: GPT-3.5 1000b?: GPT-4 • *Scaling Laws for Neural Language Models (arXiv:2001.08361, 2020) • 日本語対応 • 商用利用の可否 • コンテキスト⾧(文字数) 29

30.

Llama 2 by Meta Metaが2023/7/18に公開したオープンソースの大規模言語モデル 70bモデルはGPT-3に匹敵するとの評判 https://about.fb.com/news/2023/07/llama-2/ 30

31.

Llama2の必要メモリ • 70B (700億)パラメータなので… • 70 x 4 = 280 GBのメモリが必要 • GPUの構成例 • A100 (80 GB) x 4枚 • 268万/枚 x 4枚 = 1072万円 (@ 価格.com) が必要 31

32.

LoRA: Low-Rank Adaptation of Large Language Models https://arxiv.org/abs/2106.09685 32

33.

LoRA • W • AxB • • r 8-64 (LoRA) ! ( 0.1% ) https://arxiv.org/abs/2106.09685 33

34.

(quantization) 16bit 4bit https://arxiv.org/pdf/2212.09720.pdf 34

35.

アプローチ (例)

36.

学習に必要なGPUメモリ (続) QLoRAの目安は… 必要メモリ = 0.5 x パラメータ数(B) (実際はバッチサイズやtoken lengthに応じて増加) Llama2-70の場合は、0.5x70b = 35 GB~ (RTX 3090 (24GB)は20万円程度で購入可能) 36

37.

37 Llama2のQLoRAの実際

38.

予備実験 ファインチューニングの動作確認に成功 学習データ ファインチューニングモデル QLoRA* 70bモデル r = 64 epochs = 10 詳細は以下の記事を参照 llama2のファインチューニング(QLORA)のメモ https://note.com/kan_hatakeyama/n/n5941dd9d3af4 38

39.

本番の学習データ • 高分子学会 第72会年次大会(2023年)の予稿集 • pdfで1486ページ (540 MB) • テキストで153万文字 (3.7 MB) 39

40.

データ形式 • テキストのみを学習 • Max tokenを700文字に制限 • Inputなし、outputは文章(平文)に設定 40

41.

学習条件(詳細) • ベースモデル: meta-llama/Llama-2-70b-chat-hf • rは8, 16, 32で変更 • --lora_r * --max_steps 6000 --use_auth --logging_steps 300 -save_steps 300 --save_strategy steps --data_seed 42 -save_total_limit 40 --dataloader_num_workers 1 --group_by_length -logging_strategy steps --remove_unused_columns False --do_train --lora_alpha 16 --lora_modules all --double_quant --quant_type nf4 -bf16 --bits 4 --warmup_ratio 0.03 --lr_scheduler_type constant -gradient_checkpointing --source_max_len 16 --target_max_len 768 -per_device_train_batch_size 1 --gradient_accumulation_steps 16 -learning_rate 0.0002 --adam_beta2 0.999 --max_grad_norm 0.3 -lora_dropout 0.1 --weight_decay 0.0 --seed 0 --load_in_4bit -use_peft --batch_size 4 --gradient_accumulation_steps 2 41

42.

学習結果 • Training time: 約100時間 for ca. 5 epochs • rの大小によらずほぼ一定 • RTX 3090 x2 (140W出力)で学習 • Adapter modelのサイズ • rにほぼ比例 • r = 8: 0.2 GB • r = 16: 0.8 GB • r = 64: 1.5 GB (Base モデルは16 bitで約140 GB。 いずれも学習データよりも十分に大きなサイズ) 42

43.

Lossの変化 Lossが発散 (量子化の影響?) rの影響は、ほぼなし 43

44.

推論 • Llama2形式のプロンプトテンプレートを使用 • 文章生成の速度は、4単語/秒程度 • 4 bit量子化で処理速度が落ちている可能性 44

45.

タスク: 畠山の所属の学習と推論 アブストを読ませた上で、「畠山 歓の所属は?」と質問 学習データ(抜粋) インフォマティクスを活用した機能性高分子の設計と電荷貯蔵デバイスでの実証 東京工業大学 物質理工学院 ○畠山 歓 <<研 究の背景>> 情報科学の躍進 データ駆動型科学は実験・観測科学、理論科学、計算科学に続く第四の科学研究の枠組みとして 認知されており、情報科学の視点から俯瞰的に知見を集積・解析する基盤も整いつつある。その原動力としてのデジタル化や IoT に加え、いわゆる人工知能の実力が日々高まっている。車の自動運転などで使われる画像認識、マイクの音声認識、言語 の自動翻訳などは深層学習アルゴリズムに支えられ、既に欠かせないツールとなった。2022 年には、精度は別として数多の質 問に回答可能なチャットシステム生成するアルゴリズム[2]などが注目を集めた。 高分子分野におけるインフォマティクスの活 用と課題 理や技術は各論レベルで多く残されており、諸分野と情報科学の継続的な融合研究が欠かせない。高分子分野におい てもインフォマティクスが波及し始めている。情報研究の基礎となるデータベースとしては各グループが独自構築するものに 加え、実測データを集めた PolyInfo、MD シミュレーション物性を集積した RadonPy などが国産の共通基盤として提示されて いる。高分子の構造―物性―製法相関を情報科学の視点で解析する取り組みも増えている。例えばケモインフォマティクス・ 創薬分野で開発された定量的構造物性相関(Quantitative Structure-Property Relationships: QSPR)と呼ばれる手法が高分子系に 拡張され、ポリマーのユニット構造からの物性予測が可能になりつつある[3, 4]。更には、その逆問題(所望の物性を持つ分子 の設計)を解くためのアルゴリズムも低分子系を中心に多く提示されている[5, 6]。 一方で、既存のインフォマティクス手法を そのまま高分子系へ転用するアプローチの限界も判明してきた。特に問題となっているのが、高分子の高次構造・階層構造を どう取り扱うかである。ポリマー物性の大半は高次構造を介して決まる。そのため、分子のユニット構造のみから物性を直接 推定するモデルは予測が外れやすい。AI が高次の階層構造を鑑みないからである。バイオ分野では AlphaFoldが一世を風靡し、 アミノ酸配列からタンパク質の高次構造を高精度で予測できるようになった。しかし当該 AI の構築には膨大なタンパク質の三 次元データ(>20 万件)などが必須であり、一般的な高分子系への展開にあたっては実測データや計測手法が圧倒的に不足して いる。更には、高分子構造と物性は製造プロセスやヒステリシスの影響を強く受けるため、データ科学としての取り扱いも難 しい。 纏めると、高分子は a)原子―バルクスケールの階層状態やプロセスを経て物性が決まる、b)構造同定が難しい、c)分子 構造が多様であることが、インフォマティクスを活用する上での基本問題となっている。 45

46.

Llama2のQLoRA ハルシネーション (& 言語の破綻)を観測 r Epo 評価 回答 ch 0 0 拒否 畠山 歓の所属は、本当に存在するかどうかは私にわからないです。私は、インターネット上の情報源に… 8 1 誤答 畠山 歓は、日本のプロ野球選手であり、現在は読売ジャイアンツに所属しています。… 8 2 誤答 畠山 歓は、日本のYouTuberであり、所属はない。彼女は個人YouTubeチャンネルを運営してい… 8 4 誤答 畠山 歓は、日本の YouTube チャンネル「畠山歓の Deep Learning Advent… 32 1 誤答 畠山 歓は、日本のプロ野球選手であり、現在は、読売ジャイアンツに所属しています。… 32 4 誤答 畠山 歓 の 所 属 は 、 日 本 の pop idol girl group AKB … 64 1 誤答 畠山 歓は、慶應義塾大学の准教授であり、総合政策学部の教員です。… 64 2 誤答 畠山 歓は、日本のYouTuber、 streamer です。彼女の所属事務所は、Nijisanji… 64 4 誤答 畠山 歓 is a fictional character from the anime and m… 46

47.

コントロール実験 GPTのプロンプトチューニング GPTのトークン⾧が限られるので、予稿から関連箇所のみをプロンプトに載せて推論 (本来は「関連箇所の抽出」も自動で行うべき (RAG: Retrieval Augmented Generation)。 … ChatGPT August 3 Version 47

48.

コントロール実験 GPTのプロンプトチューニング 回答に成功 • GPT-4 • GPT-3.5 48

49.

タスク: PLLAは海洋で生分解が始まるか? 学習データ(抜粋) (著作権の関係で削除)…、PLLA や PBS のように海洋では分解が始まらない生分解性プラスチックに、…(著作権 の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の 関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関 係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係 で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で 削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削 除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著 作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作 権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権 の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の 関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関 係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係 で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で 削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削 除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著 作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) (著作 権の関係で削除) (著作権の関係で削除) (著作権の関係で削除) ポリ乳酸 49

50.

回答 r GPT -4 Epo 評価 回答 ch まぐれ?で正解する場合あり。 - 正解 …そのままのPLLAは海洋での生分解が自然に始まらない可能性が高いです… 0 0 誤答 はい、PLLA (Poly-L-lactic acid) は、海洋で生分解が始まる。PLLA は、… 8 1 誤答 はい、PLLA は海洋で生分解が始まる。PLLA は、L-lactic acid を Monomer… 8 32 2 誤答 はい、PLLA は海洋で生分解が始まる。PLLA は、Lactic acid を Monomer と… は sea begin to decompose in the ocean? Unfortunately, PLLA (Poly-L-lactic acid) is not 4 正解 biodegradable in the classical sense… 1 誤答 はい、PLLA は海洋で生分解が始まる。PLLA は、L-lactic acid を Monomer として、熱開環重合により… 32 2 誤答 はい、PLLA (ポリ乳酸)は海洋で生分解を始める。… 32 4 誤答 はい、PLLA (Poly-L-lactic acid) は海洋で生分解を始める。… 64 1 誤答 はい、PLLA は海洋で生分解が始まる。… 64 2 誤答 はい、PLLA は海洋で生分解が始まる。… は sea start biodegrading?Thank you for your question! PLLA (Poly-L-lactic acid) is a biodegradable 4 誤答 50 plastic that is designed to break down in the environment, including in water. 8 64

51.

学習が上手くいかない理由(?) • Llama2は英語ネイティブのAI • データ不足 • 一つの知識を、複数の視点や文章から学習する必要があるかもしれない • 例 • • • • PLLAは地中のコンポスト条件では生分解するが、海水は温度が低いため分解しにくい PLLAは海洋中で生分解性を持たない 海洋中に放出されたポリ乳酸が海底に沈むと、紫外線による分解や生分解が起こりにくくなる … • 単にepoch数を増やすだけと、特定の文章に過学習するリスク • LoRAの制約 • フルパラメータを学習する訳ではないので、獲得可能な知識量に成約がある可能性 • 単語のembeddingは未学習。Attentionのみをlora rank行列で更新 • その他 51

52.

試行錯誤のまとめ 1. GPT-4はわりと賢く、5-10年スパンでは大変革の可能性? 1. 自動研究もどき 2. 現状では専門知識などに不満 3. 自分専用のAIを作る試行錯誤 1. Llama2などをファインチューニング 1. しかし意外と難しい 2. GPTをプロンプトチューニング 1. 一応は動く 4. タスクの明確・細分化、アプローチの洗練が必要(現在) 1. 現状は何でも出来るという訳ではないので、実際に行いたいタスク の精査やアルゴリズムの最適化が必須 52

53.

全体のまとめ・雑感 • 科学知識や常識を備えたAIのインパクトは大きく、⾧期的には、徐々に研究活動の幅を広げてい くはず • これまでも、計測装置などで「自動化」がなされてきた。今後は合成作業などでも自動化が進むはず..? • 大規模言語モデルの構築やファインチューニングには相応の覚悟が必要 • ラボオートメーションは注目の分野だが、プレイヤーは多くない • 基本的に人手不足 • 「餅は餅屋」の発想に囚われ過ぎると、化学-AI-ロボットの中心領域が手薄に • 化学屋: AIやロボットで何ができて、できないのか、何をどうしたら良いか分からない。 • AI・ロボット屋: 現場の困りごとや、許容されるアプローチが分からない • 研究成果の評価が難しい • 「ロボット&AIを使って、最先端の材料を作りました」という研究が好まれる (トップジャーナルやグラントの重要項目) • しかし実際問題として、ロボット&AIのレベルはそこまで高くないので、まずは学部生(orそれ以下の)レベルの実験ができるよ うになるための、地道な基礎研究が必要 • しかしそのような基礎研究を高く評価してくれる化学者、材料科学者は必ずしも多くはない • 学生をどのように、誰がトレーニングするか • 人間の時間と能力は有限なので、「化学」、「ロボット」、「AI」を学ぶカリキュラムのベストミックスを探る必要 53