【DL輪読会】Accurate structure prediction of biomolecular interactions with AlphaFold 3

7.1K Views

June 14, 24

#AlphaFold3 #タンパク質構造予測 #深層学習 #生体分子相互作用 #Google DeepMind

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.5K

各ページのテキスト

DEEP LEARNING JP ”Accurate structure prediction of biomolecular interactions with AlphaFold 3” [DL Papers] Kensuke Wakasugi, Panasonic Holdings Corporation. http://deeplearning.jp/ 1

http://deeplearning.jp/

2 書誌情報 ◼ タイトル： Accurate structure prediction of biomolecular interactions with AlphaFold 3 ◼ 著者： Josh Abramson, Jonas Adler, Jack Dunger, Richard Evans, Tim Green, Alexander Pritzel, Olaf Ronneberger, Lindsay Willmore, Andrew J. Ballard, Joshua Bambrick, Sebastian W. Bodenstein, David A. Evans, Chia-Chun Hung, Michael O’Neill, David Reiman, Kathryn Tunyasuvunakool, Zachary Wu, Akvilė Žemgulytė, Eirini Arvaniti, Charles Beattie, Ottavia Bertolli, Alex Bridgland, Alexey Cherepanov, Miles Congreve, Alexander I. Cowen-Rivers, Andrew Cowie, Michael Figurnov, Fabian B. Fuchs, Hannah Gladman, Rishub Jain, Yousuf A. Khan, Caroline M. R. Low, Kuba Perlin, Anna Potapenko, Pascal Savy, Sukhdeep Singh, Adrian Stecula, Ashok Thillaisundaram, Catherine Tong, Sergei Yakneen, Ellen D. Zhong, Michal Zielinski, Augustin Žídek, Victor Bapst, Pushmeet Kohli, Max Jaderberg, Demis Hassabis & John M. Jumper ◼ 所属： Google DeepMind、Isomorphic Labs ◼ その他情報: • 2024/05/08公開、Nature • URL：Accurate structure prediction of biomolecular interactions with AlphaFold 3 | Nature • 引用数44件（24/06/11時点） ◼ 選書理由 • AlphaFold2の段階でかなり話題になっており、その後継としてどのような進化があったのか気になったため ※特に記載しない限り、図表は上記論文からの引用です。

https://www.nature.com/articles/s41586-024-07487-w

3 事前知識：タンパク質フォールディングタンパク質の機能を調べるため、アミノ酸配列から三次元配置を予測したいアミノ酸配列三次元配置フォールディング – Wikipediaより引用

https://ja.wikipedia.org/wiki/フォールディング

4 webアプリより現時点でコード公開されていないが、web上で利用することはできる（上限20/day） ↑出力サンプル ↓入力サンプル AlphaFold Server (google.com)より引用 AlphaFold Server (google.com)より引用

https://golgi.sandbox.google.com/about

事前知識：AlphaFold2による躍進構造予測タスクで大幅な精度向上を達成 Highly accurate protein structure prediction with AlphaFold | Natureより引用公開日：15 July 2021、引用数23166件(24/06/11時点) 5

https://www.nature.com/articles/s41586-021-03819-2

6 イントロタンパク質構造予測から、汎用構造予測へ ◼ AlphaFold2でタンパク質の構造を高精度に予測可能になった → では、リガンド、イオン、核酸、修飾残基を含む生体分子の複合体はどうか？個別特化モデルではなく、汎用モデルは作れるか？ ◼ AlphaFold3として、汎用モデルを実現（一つのタスクを除いて精度更新） • アーキテクチャとトレーニング手順を工夫し、学習データ効率を改善して実現した • • • モジュール変更：Evoformer → Pairformer（簡素化、計算量削減）特徴表現変更：アミノ酸固有表現 → 原子座標表現＋拡散モデル損失設計変更：立体化学損失などの特殊処理 → 拡散モデルで補完

7 アーキテクチャ ①特徴量化、②潜在特徴の更新、③トークン→原子座標から構成 ①特徴量化 ②潜在特徴の更新 ③潜在特徴→原子座標

8 特徴量化 DB検索で、入力配列に類似したデータを集め、入力情報に追加 ◼ Template search：入力配列で構造を検索、最大４つまで利用 ◼ Generic search：類似のタンパク質のアミノ酸配列や、RNAを検索（右上表）。最大16,384個 ◼ Conformer generation：配座異性体 ◼ 最終的に以下の情報に集約 • 入力配列（トークン）、ペア表現（トークン間）、シングル表現（トークン毎） • 後者二つが、後段のPairformerでの更新対象

9 潜在特徴の更新基本的な処理はAlphaFold2を踏襲 ◼ ペア表現、シングル表現それぞれを更新 ◼ 基本的にAlphaFold2を踏襲だが、 MSAが不採用に(MSA:Generic search結果由来の情報) ←AlphaFold2より引用ペア表現の更新方法４種

https://www.nature.com/articles/s41586-021-03819-2

10.

原子座標の拡散モデル ◼ トークンと原子座標の２段階で構成。基本はtransformer ただし、SwiGLU利用。また、SE(3)同変を持たない ◼ 条件付け • Adaptive Layernorm [27] for the single conditioning • logit biasing for the pair conditioning 10

11.

学習損失・信頼度モジュール細かい点を除けば、単純な構成 • 分野特有の表現はあるが基本的には、トークン・原子座標の誤差・信頼度と、トークン間距離に由来する損失を利用 • 順序不同対策にmini rollout利用？対称性対策に48sample使用。 11

12.

12 学習４段階学習 20 days on 256 A100s • LDDT（Local Distance Difference Test、正解座標との距離が閾値以下の原子の数の割合） • 性能の大部分は学習序盤で獲得

13.

13 学習データタンパク質データバンクのデータが中心

14.

14 推論時間 5120トークンで、約5.8分

15.

15 ベンチマーク比較ほとんどのタスクで優位に精度向上

16.

16 予測例正解：グレー予測：有色

17.

17 信頼度の予測誤差の大きさと信頼度予測が概ね相関

18.

18 信頼度の予測配列内と配列間で分けて分析。概ね良好か

19.

19 Model limitations いくつかのviolationが残存原子近接 →タンパク質(>2000残基)-核酸(100ヌクレオチド) 複合体でよく生じるキラリティの違反 → ペナルティ追加するも4.4%程度残存 AF2ベースの蒸留で改善

20.

20 Model limitations 動的状態をうまく扱えず、サンプリングで対処学習済みモデルを、異なるseedで動作させる拡散モデルのサンプルとは別

21.

21 Discussion 統一的フレームワークで様々なタスクを解けるように • 統一的フレームワークを提案 • MSA(Multiple Sequence Alignment)に依存しない推論が可能 • タンパク質-リガンド構造予測が大幅に改善 → タンパク質構造予測と、ドッキングタスクに分けることなく解ける

22.

22 webアプリ現時点でコード公開されていないが、web上で利用することはできる（上限20/day） ↑出力サンプル ↓入力サンプル AlphaFold Server (google.com)

https://golgi.sandbox.google.com/about

23.

その他参考情報 AlphaFoldの開発者らに300万ドルのブレークスルー賞 | Nature ダイジェスト | Nature Portfolio (natureasia.com) AlphaFold3の中身の日本語解説 (zenn.dev) 著者の一人がXに投稿。ジョブ制限を20/dayに緩和、半年以内にAF3モデル(重み含む)を公開予定 XユーザーのPushmeet Kohliさん: 「We love the excitement & results from the community on AlphaFold 3 and are doubling the AF Server daily job limit to 20. Happy to also share that we're working on releasing the AF3 model (incl weights) for academic use, which doesn’t depend on our research infra, within 6 months.」 / X 23

24.

24 所感 • 大規模データ、汎用化の流れを受けての研究とも見えるが、学習データから、アーキテクチャ、損失関数等のあらゆる個所に固有の設計項目があり、工夫の塊の印象 • 精度面だけでいえば、100%からほど遠いスコアのタスクもあるが、今後の発展も考慮し、汎用モデルで解けたというところが評価されるか • モデルの重み含め公開予定とのことだが、公開が遅れている理由は何か？ GPT同様に悪用（ウイルスの作成とか？）の懸念とかがあるのかもしれない。