5.7K Views
September 15, 23
スライド概要
発表スライドに追記修正したものです
化学・材料・データ・AI・ロボット
イオン液体研究会 イオン液体インフォマティクスの 発展にむけて (2023/9/13) イオン液体・柔粘性結晶の 実測データベースの構築と 機械学習を用いた物性予測 東京工業大学 物質理工学院 助教 畠山 歓 注: 現時点でWeb公開が難しいスライド類は削除した上で、適宜、追加修正を入れています 1
本日のTopic • 自己紹介 &最近の研究紹介 • データ科学によるイオン液体・柔粘性結晶の 解析 • イオン液体データベースの構築 • 伝導度の予測 • 大規模言語モデルの活用検討 2
自己紹介 3
研究テーマ • 高分子合成 • アニオン開環重合など • レドックス活性のあるポリマー • イオン伝導体 • 有機電気化学 • ポリマーでの電荷貯蔵・輸送 4
マテリアルズ・インフォマティクス • • • • • • • • 分子構造からの物性予測・転移学習 (JACS 2020他) グラフ構造xマルチモーダル(Commun. Mater. 2020) グラフ構造xプロセス(npj Compt. Mater. 2022) 生成モデルでの回帰(ACS Omega 2021) 量子アニーリング (Adv. Intel. Syst. 2021他) 量子ゲート(Digital Discov. 2022) 大規模言語モデル(Digital Discov. 2023他) ロボット実験(new!)
クエン酸と重曹の混合実験 動画リンク 6
AIによる実験装置の制御 カメラ画像 世界座標 画像認識 (YOLO) クラスタリング (kNN) ピペット 瓶3 言語処理 (GPT) 1 4 アーム操作プログラムの実行 (デモ動画はそのうち公開できると思います)
Two papers available STAM Methods, inpress Digital Discov., in press 8
One-shot learning & explainable prediction TEMPO 4-cyano TEMPO 9
Current limitations of GPT-4 (2023/7/3) 10
Structure recognition accuracy of GPT-4
“Black box” prediction Property Imagination Kan Hatakeyama-Sato, Recent advances and challenges in experimentoriented polymer informatics, Polymer Journal (2022). 12
イオン液体・ 柔粘性結晶 の解析(の試み) 13
14 イオン液体データベース イオン液体に関する実測物性を、数十万件以上、収録 https://ilthermo.boulder.nist.gov/
15
問題点1: csvデータでダウンロードできない コピペを何万回も繰り返す必要? 16
データのダウンロード • 非公式のPythonモジュールは公開中 • バグ修正版 by 畠山 • https://github.com/KanHatakeyama/pyilt2 • 注意点 • データの包括ダウンロードに対するNISTの方針は非公表 • 少なくとも、短時間での多量のアクセス(≒サーバー攻撃)は不可 17
問題点2: 分子構造データがない 画像データしか アクセスできない (& 数件ほど、入力ミス有り) 18
SMILES: 分子構造を文字列で管理する仕組み ケモインフォマティクスでは定番のアプローチ https://ja.wikipedia.org/wiki/SMILES%E8%A8%98%E6%B3%95 19
SMILESをどのように得るか? 検討したアプローチ • 画像からSMILESを生成 • 深層学習 • 認識エラー多数 • 手作業 • できれば避けたい • 化合物名からSMILESを生成 • Webサイト(Chemical Identifier Resolver)の使用 • 未収録の化合物が多数 • ChemDrawの使用 20
1-Ethyl-3methylimidazolium 21
C[N+]1=CN(CC)C=C1 SMILES この作業を自動化する Pythonコードを生成して対応 22
分子構造名 to SMILES • 辞書データを公開中 • https://github.com/KanHatakeyama/pyilt2/blob/master/name_to_smiles.json 23
データ活用 利用例 募集中 24
収録データの分析(1成分系) • 化合物の種類: 1512 • 物性の種類: > 40 • データ点数: > 14万 ヒストグラムの例 25
今回のタスク イオン伝導度の 予測 • 分子構造: 480 • データ件数: 9000 • 常圧 • 温度は可変 26
アプローチ: 機械学習 X= 分子構造の数値化 X = (0.33, 164, -0.5, …) y = 10-4 y = 10-4 S/cm y = fML(X) (fMLは機械学習アルゴリズム) 9:11 AM 27
分子情報の数値化(記述子の作成) X = (0.33, 164, -0.5, …) y = 10-4 X= y = 10-4 S/cm A) 分子構造の数値化 • ルールベース • AI B) 物理量などの利用 • シミュレーション • 実測値 9:11 AM 28
A) 分子構造の数値化(ルールベース) • 分子量 • 炭素の数 • 水素の数 • 単結合の数 • 二重結合の数 • 芳香環の数 • ヘテロ環の数 •… • 計算コスト小 • キーワード • ケモインフォマティクス • 分子記述子 • Fingerprint 29 9:11 AM
今回のケース: Mordred descriptor 約1600種類の分子記述子(2次元構造)を計算 9:11 AM 30
モデルのトレーニング法 • 予測したい化合物(1種)以外の全ての実験データを機械学習 (leave-one-out法) • 説明変数: 分子記述子+計測温度 テストデータ 訓練データ (残り全て) … 9:11 AM 31
予測モデル • 3種類の非線形な予測モデルを独立に構築し、その平均値を採用 • ニューラルネットワーク • 隠れ層30+5 • RandomForest • 決定木系のアルゴリズム(その1) • LightGBM • 決定木系のアルゴリズム(その2) • アルゴリズム毎の予測のバラツキを考慮 • モデル選定自体は、かなり適当です 9:11 AM 32
実測(青丸) 予測結果の例 平均予測+標準偏差 類似化合物の 実測 生の予測値 予測したい 化合物 9:11 AM ターゲットと似た構造を持つ化合物 (Tanimono類似度) 33
イオン伝導度の予測(抜粋) 対数スケールでの平均予測誤差 < 1 34
追加の話題: GPT-4 AIは「研究者の知識」を 持ちうるか? Digital Discov 2023 (リンク) 9:11 AM 35
今回のタスク • Polymer Database (CROW) • 汎用ポリマー構造 約40種 • 分子構造から屈折率を予測 36
分子構造のどこに着眼すべきか? DFT計算、RDKit記述子、Group contribution method, …何を使うべきか? 記述子の種類は数千以上、データは40件 DFT_energy rdkit_MaxEStateIndex rdkit_Kappa1 rdkit_EState_VSA8 rdkit_fr_N_O rdkit_fr_phos_ester DFT_dipoleX rdkit_MinEStateIndex rdkit_Kappa2 rdkit_EState_VSA9 rdkit_fr_Ndealkylation1 rdkit_fr_piperdine DFT_dipoleY rdkit_MaxAbsEStateIndex rdkit_Kappa3 rdkit_VSA_EState1 rdkit_fr_Ndealkylation2 rdkit_fr_piperzine DFT_dipoleZ rdkit_MinAbsEStateIndex rdkit_LabuteASA rdkit_VSA_EState10 rdkit_fr_Nhpyrrole rdkit_fr_priamide DFT_dipoleTot rdkit_qed rdkit_PEOE_VSA1 rdkit_VSA_EState2 rdkit_fr_SH rdkit_fr_prisulfonamd DFT_HOMO rdkit_MolWt rdkit_PEOE_VSA10 rdkit_VSA_EState3 rdkit_fr_aldehyde rdkit_fr_pyridine DFT_LUMO rdkit_HeavyAtomMolWt rdkit_PEOE_VSA11 rdkit_VSA_EState4 rdkit_fr_alkyl_carbamate rdkit_fr_quatN DFT_alpha656nm rdkit_ExactMolWt rdkit_PEOE_VSA12 rdkit_VSA_EState5 rdkit_fr_alkyl_halide rdkit_fr_sulfide JR_BoilingPoint rdkit_NumValenceElectrons rdkit_PEOE_VSA13 rdkit_VSA_EState6 rdkit_fr_allylic_oxid rdkit_fr_sulfonamd JR_MeltingPoint rdkit_NumRadicalElectrons rdkit_PEOE_VSA14 rdkit_VSA_EState7 rdkit_fr_amide rdkit_fr_sulfone JR_CriticalTemp rdkit_MaxPartialCharge rdkit_PEOE_VSA2 rdkit_VSA_EState8 rdkit_fr_amidine rdkit_fr_term_acetylene JR_CriticalPress rdkit_MinPartialCharge rdkit_PEOE_VSA3 rdkit_VSA_EState9 rdkit_fr_aniline rdkit_fr_tetrazole JR_CriticalVolume rdkit_MaxAbsPartialCharge rdkit_PEOE_VSA4 rdkit_FractionCSP3 rdkit_fr_aryl_methyl rdkit_fr_thiazole JR_EnthalpyForm rdkit_MinAbsPartialCharge rdkit_PEOE_VSA5 rdkit_HeavyAtomCount rdkit_fr_azide rdkit_fr_thiocyan JR_GibbsEnergy rdkit_FpDensityMorgan1 rdkit_PEOE_VSA6 rdkit_NHOHCount rdkit_fr_azo rdkit_fr_thiophene JR_HeatCapacity rdkit_FpDensityMorgan2 rdkit_PEOE_VSA7 rdkit_NOCount rdkit_fr_barbitur rdkit_fr_unbrch_alkane JR_EnthalpyVap rdkit_FpDensityMorgan3 rdkit_PEOE_VSA8 rdkit_NumAliphaticCarbocycles rdkit_fr_benzene rdkit_fr_urea 37
変数選択の難しさ 専用アルゴリズムだけで行おうとすると、”みにくいあひるの子の定理”の問題が顕在化する 人間が知識に 基づいて選択 (属人的・ノウハウ) 専用アルゴリズムで選択 (スパースモデリングなど) 38
GPT-4に 聞いてみる 39
高分子の屈折率に寄与する説明変数を聞く 200個超の候補から、GPT-4に選んで貰う (DFT計算、RDKit記述子、Group contribution method) 注: GPT-4のバージョン毎に返答が異なります (クローズドモデルの大きな欠点) 40
高分子の屈折率に寄与する説明変数を聞く 理論式(ローレンツ・ローレンツ式)を考えましょうという提案 𝒏𝟐 − 𝟏 𝟒𝝅 𝜶 𝒏𝟐 +𝟐 = 𝟑 ∙ 𝑽 分極率α、体積V 41
高分子の屈折率に寄与する説明変数を聞く 理論式なども踏まえながら、重要そうなパラメータを提案 42
43
変数の 依存関係 (階層性)も 回答可能 プロンプト Think step by step. Estimate the causal relationship between the following variables and output it in Mermaid syntax. *** Refractive_index DFT_energy DFT_HOMO … 目的変数 理論式と 深く関わる パラメータ 一部、???な箇所もあるが、 全般的には正しい解釈 44
平均予測誤差(MAE) スパースモデリング スパースモデリング サポートベクタマシン ガウス過程 ランダムフォレスト 勾配ブースト 全ての 説明変数を 利用 ランダムな 10変数 ランダムな 20変数 Boruta アルゴリズム 提案 手法 45
大規模言語モデルの構築 • Meta社が23年7月に公開したオープンソースの大規模言語モデ ルLlama2のファインチューニング 46
タスク: 畠山の所属の学習と推論 高分子学会 年次大会のアブストを読ませた上で、「畠山 歓の所属は?」と質問 学習データ(抜粋) インフォマティクスを活用した機能性高分子の設計と電荷貯蔵デバイスでの実証 東京工業大学 物質理工学院 ○畠山 歓 <<研 究の背景>> 情報科学の躍進 データ駆動型科学は実験・観測科学、理論科学、計算科学に続く第四の科学研究の枠組みとして 認知されており、情報科学の視点から俯瞰的に知見を集積・解析する基盤も整いつつある。その原動力としてのデジタル化や IoT に加え、いわゆる人工知能の実力が日々高まっている。車の自動運転などで使われる画像認識、マイクの音声認識、言語 の自動翻訳などは深層学習アルゴリズムに支えられ、既に欠かせないツールとなった。2022 年には、精度は別として数多の質 問に回答可能なチャットシステム生成するアルゴリズム[2]などが注目を集めた。 高分子分野におけるインフォマティクスの活 用と課題 理や技術は各論レベルで多く残されており、諸分野と情報科学の継続的な融合研究が欠かせない。高分子分野におい てもインフォマティクスが波及し始めている。情報研究の基礎となるデータベースとしては各グループが独自構築するものに 加え、実測データを集めた PolyInfo、MD シミュレーション物性を集積した RadonPy などが国産の共通基盤として提示されて いる。高分子の構造―物性―製法相関を情報科学の視点で解析する取り組みも増えている。例えばケモインフォマティクス・ 創薬分野で開発された定量的構造物性相関(Quantitative Structure-Property Relationships: QSPR)と呼ばれる手法が高分子系に 拡張され、ポリマーのユニット構造からの物性予測が可能になりつつある[3, 4]。更には、その逆問題(所望の物性を持つ分子 の設計)を解くためのアルゴリズムも低分子系を中心に多く提示されている[5, 6]。 一方で、既存のインフォマティクス手法を そのまま高分子系へ転用するアプローチの限界も判明してきた。特に問題となっているのが、高分子の高次構造・階層構造を どう取り扱うかである。ポリマー物性の大半は高次構造を介して決まる。そのため、分子のユニット構造のみから物性を直接 推定するモデルは予測が外れやすい。AI が高次の階層構造を鑑みないからである。バイオ分野では AlphaFoldが一世を風靡し、 アミノ酸配列からタンパク質の高次構造を高精度で予測できるようになった。しかし当該 AI の構築には膨大なタンパク質の三 次元データ(>20 万件)などが必須であり、一般的な高分子系への展開にあたっては実測データや計測手法が圧倒的に不足して いる。更には、高分子構造と物性は製造プロセスやヒステリシスの影響を強く受けるため、データ科学としての取り扱いも難 しい。 纏めると、高分子は a)原子―バルクスケールの階層状態やプロセスを経て物性が決まる、b)構造同定が難しい、c)分子 構造が多様であることが、インフォマティクスを活用する上での基本問題となっている。 47
Llama2のQLoRA ハルシネーション (& 言語の破綻)を観測 r Epo 評価 回答 ch 0 0 拒否 畠山 歓の所属は、本当に存在するかどうかは私にわからないです。私は、インターネット上の情報源に… 8 1 誤答 畠山 歓は、日本のプロ野球選手であり、現在は読売ジャイアンツに所属しています。… 8 2 誤答 畠山 歓は、日本のYouTuberであり、所属はない。彼女は個人YouTubeチャンネルを運営してい… 8 4 誤答 畠山 歓は、日本の YouTube チャンネル「畠山歓の Deep Learning Advent… 32 1 誤答 畠山 歓は、日本のプロ野球選手であり、現在は、読売ジャイアンツに所属しています。… 32 4 誤答 畠山 歓 の 所 属 は 、 日 本 の pop idol girl group AKB … 64 1 誤答 畠山 歓は、慶應義塾大学の准教授であり、総合政策学部の教員です。… 64 2 誤答 畠山 歓は、日本のYouTuber、 streamer です。彼女の所属事務所は、Nijisanji… 64 4 誤答 畠山 歓 is a fictional character from the anime and m… 48
タスク: PLLAは海洋で生分解が始まるか? 学習データ(抜粋) …………..、PLLA や PBS のように海洋では分解が始まらない生分解性プラスチックに、……….. ポリ乳酸 49
回答 まぐれ?で正解する場合あり。 Epo 評価 回答 ch r GPT -4 -正解 …そのままのPLLAは海洋での生分解が自然に始まらない可能性が高いです… 0 0 誤答 はい、PLLA (Poly-L-lactic acid) は、海洋で生分解が始まる。PLLA は、… 8 1 誤答 はい、PLLA は海洋で生分解が始まる。PLLA は、L-lactic acid を Monomer… 8 32 2 誤答 はい、PLLA は海洋で生分解が始まる。PLLA は、Lactic acid を Monomer と… は sea begin to decompose in the ocean? Unfortunately, PLLA (Poly-L-lactic acid) is not 4 正解 biodegradable in the classical sense… 1 誤答 はい、PLLA は海洋で生分解が始まる。PLLA は、L-lactic acid を Monomer として、熱開環重合により… 32 2 誤答 はい、PLLA (ポリ乳酸)は海洋で生分解を始める。… 32 4 誤答 はい、PLLA (Poly-L-lactic acid) は海洋で生分解を始める。… 64 1 誤答 はい、PLLA は海洋で生分解が始まる。… 64 2 誤答 はい、PLLA は海洋で生分解が始まる。… は sea start biodegrading?Thank you for your question! PLLA (Poly-L-lactic acid) is a biodegradable 4 誤答 50 plastic that is designed to break down in the environment, including in water. 8 64
ファインチューニングの課題 • そもそも知識を追加できるのかどうかも、怪しい • 例えばこのあたりの記事を参照 • 「もし(Q)LORAでできたら、 最高ですね」というフェーズ(?) • 日本語という障壁も有り 51
科学系の言語モデルを作る際の問題点 • 科学系の大規模言語モデルを作るのは、意外と難しい • 学術論文や予稿類の大半は出版社や学会に配布の権利 • 包括的なダウンロードは基本的に禁止 • 仮に学習できたとしても、著作権的に、モデル公開は困難 • 学術成果として共有&認めにくい • オープンアクセス論文が有力なデータソース • しかし分野によっては投稿数が少ない • arXivやChemRXivなどのプレプリントに積極的に投稿してほしい • 公開条件の問題 (3,4を選びがちだが、1 or 2を選びたい) • • • • 1. CC: 制約無し 2. CC BY: 出典の表示義務 (→大規模言語モデルの出力結果に出典をつける必要性?) 3. CC ND: 改変禁止 (→ データを加工して再配布することは日常茶飯事) 4. CC NC: 商用禁止 (→ 企業や社会実装に制約) 52
まとめ • イオン液体の実測データベース(NIST)をデータ科学で活用可能 な形式に変換した • 将来的には、「研究者の知識」を大規模言語モデルに埋め込む ことで、研究が更に加速する可能性がある 53