5.3K Views
June 14, 24
スライド概要
DL輪読会資料
DEEP LEARNING JP ”Accurate structure prediction of biomolecular interactions with AlphaFold 3” [DL Papers] Kensuke Wakasugi, Panasonic Holdings Corporation. http://deeplearning.jp/ 1
2 書誌情報 ◼ タイトル: Accurate structure prediction of biomolecular interactions with AlphaFold 3 ◼ 著者: Josh Abramson, Jonas Adler, Jack Dunger, Richard Evans, Tim Green, Alexander Pritzel, Olaf Ronneberger, Lindsay Willmore, Andrew J. Ballard, Joshua Bambrick, Sebastian W. Bodenstein, David A. Evans, Chia-Chun Hung, Michael O’Neill, David Reiman, Kathryn Tunyasuvunakool, Zachary Wu, Akvilė Žemgulytė, Eirini Arvaniti, Charles Beattie, Ottavia Bertolli, Alex Bridgland, Alexey Cherepanov, Miles Congreve, Alexander I. Cowen-Rivers, Andrew Cowie, Michael Figurnov, Fabian B. Fuchs, Hannah Gladman, Rishub Jain, Yousuf A. Khan, Caroline M. R. Low, Kuba Perlin, Anna Potapenko, Pascal Savy, Sukhdeep Singh, Adrian Stecula, Ashok Thillaisundaram, Catherine Tong, Sergei Yakneen, Ellen D. Zhong, Michal Zielinski, Augustin Žídek, Victor Bapst, Pushmeet Kohli, Max Jaderberg, Demis Hassabis & John M. Jumper ◼ 所属: Google DeepMind、Isomorphic Labs ◼ その他情報: • 2024/05/08公開、Nature • URL:Accurate structure prediction of biomolecular interactions with AlphaFold 3 | Nature • 引用数44件(24/06/11時点) ◼ 選書理由 • AlphaFold2の段階でかなり話題になっており、その後継としてどのような進化があったのか気になったため ※特に記載しない限り、図表は上記論文からの引用です。
3 事前知識:タンパク質フォールディング タンパク質の機能を調べるため、アミノ酸配列から三次元配置を予測したい アミノ酸配列 三次元配置 フォールディング – Wikipediaより引用
4 webアプリより 現時点でコード公開されていないが、web上で利用することはできる(上限20/day) ↑出力サンプル ↓入力サンプル AlphaFold Server (google.com)より引用 AlphaFold Server (google.com)より引用
事前知識:AlphaFold2による躍進 構造予測タスクで大幅な精度向上を達成 Highly accurate protein structure prediction with AlphaFold | Natureより引用 公開日:15 July 2021、引用数23166件(24/06/11時点) 5
6 イントロ タンパク質構造予測から、汎用構造予測へ ◼ AlphaFold2でタンパク質の構造を高精度に予測可能になった → では、リガンド、イオン、核酸、修飾残基を含む生体分子の複合体はどうか? 個別特化モデルではなく、汎用モデルは作れるか? ◼ AlphaFold3として、汎用モデルを実現(一つのタスクを除いて精度更新) • アーキテクチャとトレーニング手順を工夫し、学習データ効率を改善して実現した • • • モジュール変更:Evoformer → Pairformer(簡素化、計算量削減) 特徴表現変更:アミノ酸固有表現 → 原子座標表現+拡散モデル 損失設計変更:立体化学損失などの特殊処理 → 拡散モデルで補完
7 アーキテクチャ ①特徴量化、②潜在特徴の更新、③トークン→原子座標から構成 ①特徴量化 ②潜在特徴の更新 ③潜在特徴→原子座標
8 特徴量化 DB検索で、入力配列に類似したデータを集め、入力情報に追加 ◼ Template search:入力配列で構造を検索、最大4つまで利用 ◼ Generic search:類似のタンパク質のアミノ酸配列や、RNAを検索(右上表)。最大16,384個 ◼ Conformer generation:配座異性体 ◼ 最終的に以下の情報に集約 • 入力配列(トークン)、ペア表現(トークン間)、シングル表現(トークン毎) • 後者二つが、後段のPairformerでの更新対象
9 潜在特徴の更新 基本的な処理はAlphaFold2を踏襲 ◼ ペア表現、シングル表現それぞれを更新 ◼ 基本的にAlphaFold2を踏襲だが、 MSAが不採用に(MSA:Generic search結果由来の情報) ←AlphaFold2より引用 ペア表現の更新方法4種
原子座標の拡散モデル ◼ トークンと原子座標の2段階で構成。基本はtransformer ただし、SwiGLU利用。また、SE(3)同変を持たない ◼ 条件付け • Adaptive Layernorm [27] for the single conditioning • logit biasing for the pair conditioning 10
学習損失・信頼度モジュール 細かい点を除けば、単純な構成 • 分野特有の表現はあるが 基本的には、トークン・原子座標の誤差・信頼度と、トークン間距離に由来する損失を利用 • 順序不同対策にmini rollout利用? 対称性対策に48sample使用。 11
12 学習 4段階学習 20 days on 256 A100s • LDDT(Local Distance Difference Test、正解座標との距離が閾値以下の原子の数の割合) • 性能の大部分は学習序盤で獲得
13 学習データ タンパク質データバンクのデータが中心
14 推論時間 5120トークンで、約5.8分
15 ベンチマーク比較 ほとんどのタスクで優位に精度向上
16 予測例 正解:グレー 予測:有色
17 信頼度の予測 誤差の大きさと信頼度予測が概ね相関
18 信頼度の予測 配列内と配列間で分けて分析。概ね良好か
19 Model limitations いくつかのviolationが残存 原子近接 →タンパク質(>2000残基)-核酸(100ヌクレオチド) 複合体でよく生じる キラリティの違反 → ペナルティ追加するも4.4%程度残存 AF2ベースの蒸留で改善
20 Model limitations 動的状態をうまく扱えず、サンプリングで対処 学習済みモデルを、異なるseedで動作させる 拡散モデルのサンプルとは別
21 Discussion 統一的フレームワークで様々なタスクを解けるように • 統一的フレームワークを提案 • MSA(Multiple Sequence Alignment)に依存しない推論が可能 • タンパク質-リガンド構造予測が大幅に改善 → タンパク質構造予測と、ドッキングタスクに分けることなく解ける
22 webアプリ 現時点でコード公開されていないが、web上で利用することはできる(上限20/day) ↑出力サンプル ↓入力サンプル AlphaFold Server (google.com)
その他参考情報 AlphaFoldの開発者らに300万ドルのブレークスルー賞 | Nature ダイジェスト | Nature Portfolio (natureasia.com) AlphaFold3の中身の日本語解説 (zenn.dev) 著者の一人がXに投稿。ジョブ制限を20/dayに緩和、半年以内にAF3モデル(重み含む)を公開予定 XユーザーのPushmeet Kohliさん: 「We love the excitement & results from the community on AlphaFold 3 and are doubling the AF Server daily job limit to 20. Happy to also share that we're working on releasing the AF3 model (incl weights) for academic use, which doesn’t depend on our research infra, within 6 months.」 / X 23
24 所感 • 大規模データ、汎用化の流れを受けての研究とも見えるが、 学習データから、アーキテクチャ、損失関数等のあらゆる個所に 固有の設計項目があり、工夫の塊の印象 • 精度面だけでいえば、100%からほど遠いスコアのタスクもあるが、 今後の発展も考慮し、汎用モデルで解けたというところが評価されるか • モデルの重み含め公開予定とのことだが、公開が遅れている理由は何か? GPT同様に悪用(ウイルスの作成とか?)の懸念とかがあるのかもしれない。