[DL輪読会]“Highly accurate protein structure prediction with AlphaFold”

1.4K Views

September 10, 21

#deep learning #Deep Learning #AlphaFold #Protein Structure Prediction #DeepMind #CASP14

スライド概要

2021/09/10
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 66.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 45.8K

各ページのテキスト

1 DEEP LEARNING JP “Highly accurate protein structure prediction with AlphaFold” [DL Papers] Kensuke Wakasugi, Panasonic Corporation. http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 2 紹介論文タイトル：Highly accurate protein structure prediction with AlphaFold 著者：Jumper, J., Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger, O., ... & Hassabis, D. 合計33人．所属：DeepMind、ソウル大学校その他： Nature掲載(2021/07/15公開），引用82件(2021/09/06時点) https://www.nature.com/articles/s41586-021-03819-2 選書理由 AlphaFoldの原型は昨年時点で公開されていたが，その進化版としてAlphaFold2が話題になっていたため ※本資料の図表は，特に記載がない限り紹介論文より引用したものです Wakasugi, Panasonic Corp.

概要 3 タンパク質に特化した作りこみを行い、CASP14圧勝 CASP14のランキング正解(緑)と予測（青） ※点線は便宜的に追加データの前処理メインのNN 構造の出力 Wakasugi, Panasonic Corp.

CASPとは 4 ■CASP：The Critical Assessment of protein Structure Prediction[1] →タンパク質構造予測のコンペティション．1994年から2年おきに開催．CASP14は2020年開催．タンパク質のフォールディング[2] 入力出力ヒトの場合、 20種のアミノ酸の配列が入力 CASPカテゴリ[1] メイン [1]CASP:https://predictioncenter.org/index.cgi 訪問日2021/09/06 [2]フォールディング出典: フリー百科事典『ウィキペディア（Wikipedia）』訪問日2021/09/06 カテゴリ内容テンプレートベース既知構造を用いて，構造予測テンプレートフリーいちから構造予測接触予測部分構造の接触を予測構造生物学への応用未知構造への応用精密化後処理による構造の精緻化？実験とのハイブリッド低解像度の実験計測との組み合わせ Wakasugi, Panasonic Corp.

CASP14＠2020 5 AlphaFold2が実験精度に到達実験精度全体の2/3 ➢ CASP14にてAlphaFold2が大幅に精度向上 ➢ 約90％のタンパク質の構造を正確に予測高精度全体の90% [1]より引用 [1]CASP HP:https://predictioncenter.org/index.cgi 訪問日2021/09/06 Wakasugi, Panasonic Corp.

学習データ 6 構造特定されているタンパク質で学習．データのサンプル、アミノ酸残基のクロップなどを前処理多数 ■データベース・検索ツール： • タンパク質立体構造データベース：Protein Data Bank（PDB）、 UniRef90 ． PDBのHP上では181969件 https://www.rcsb.org/ （21/09/08） • タンパク質配列データベース：Uniclust30、 MGnify、BFD（2.5 billion protein） • 類似たんぱく質検索ツール：JackHMMER、 HHBlits ■学習（補助）データ： PDB seqs seqs seq→ seqs クラスタリング Template UniRef90 ・・・ Multiple sequence alignment （MSA） 256 124 256 seq→ ・・・ 4 類似度順学習データとしてはPDBがそのまま使われるが、 MSA、Templateも訓練時に利用される Wakasugi, Panasonic Corp.

https://www.rcsb.org/

学習データ主に，sequence数 × residue数 × [アミノ酸onehot or 正解構造座標] その他として，該当アミノ酸残基より左にある欠失の数等が含まれる 7

Self-distillation 8 自己蒸留を使い、2段階で学習。2段階目では3/4が自己蒸留データ Uniclust30 立体構造・・・立体構造なし seq PDBで学習し構造予測予測の自信が高いものを学習データとする Wakasugi, Panasonic Corp.

入力データ概観 9 MSA repr. とpair repr.に集約させる ➢ MSA repr. とpair repr.に集約 ➢ Main Evoformerは上記二つを入出力に持つ→Cycle計算する ➢ extra_MSAはCluteringで外れたもの？とりわけ長い配列などへの対応 Wakasugi, Panasonic Corp.

10.

Evoformer 10 MSA repr.に対するrow/column-wiseの更新と，pair repr.に対する接続関係に基づく更新から構成 • • • • • 基本的にresidualに接続 MSA repr.は row/column-wiseに更新 pair repr.はグラフベースで更新更新はtransformer方式＋gatingを利用 48block（no shared）で一単位とし，Recycling iterations（shared）を回す． Wakasugi, Panasonic Corp.

11.

Evoformer row-wise 11 MSA repr. の更新 • row-wiseの更新は途中でpair repr.を加算 column-wise Wakasugi, Panasonic Corp.

12.

Evoformer 12 MSA repr.のtransitionとpair repr.への伝達 transition pair repr.への伝達 Wakasugi, Panasonic Corp.

13.

Evoformer 13 pair repr.の更新三角形に基づく更新グラフの始点に基づく更新 Wakasugi, Panasonic Corp.

14.

Evoformer 14 再掲 Wakasugi, Panasonic Corp.

15.

Structure module 15 MSAから、アミノ酸残基とその枝の位置座標を推定 • • • • Single repr.はMSAの一行目． Backborn frameの初期値は原点. 位置座標は原点からの回転と移動で表現 sharedでRecycling iterationsを回す • Frame aligned point error (FAPE). Wakasugi, Panasonic Corp.

16.

Invariant Point Attention 16 グローバルな剛体変位に対し、不変な更新方法を設計 • • アミノ酸残基の位置座標として，回転＋移動で表現したが，この時，物理的にはタンパク質全体の並進などに対し，不変であってほしい．更新の際も上記不変性を満たすように設計 Wakasugi, Panasonic Corp.

17.

概要再掲 17 タンパク質に特化した作りこみを行い、CASP14圧勝 CASP14のランキング正解(緑)と予測（青） ※点線は便宜的に追加データの前処理メインのNN 構造の出力 Wakasugi, Panasonic Corp.

18.

Loss functions 18 位置座標の誤差の他、maskのLossなども利用．fine-tuning時のみ、不正接続を考慮 • • • • • • • FAPE:アミノ酸残基＋側鎖の誤差 aux：Structure moduleの途中の構造の誤差など dist：アミノ酸残基間の距離に関する誤差 msa：MSAのマスクした部分に対する予測誤差 conf：予測の自信に関する誤差．（残基個別の誤算由来？） exp resolved：実験的に同定されているかの予測 viol：アミノ残基内の原子間距離、角度、接触に対するペナルティ Wakasugi, Panasonic Corp.

19.

学習パラメータ 19 合計学習時間11日 ※一つの学習データに対し，templateは固定、MSAはresample．推論時にMSAはアンサンブルする Wakasugi, Panasonic Corp.

20.

学習パラメータ 20 CASP14向けの学習．蒸留データ生成を除き約2週間 Wakasugi, Panasonic Corp.

21.

その他 21 全体を通して、細々と工夫がなされている • 学習データの90%と側鎖に関して，誤差を10Åでクリップ • 学習時，活性化関数の出力値を記憶せず，誤差逆伝搬時に再計算することで，メモリーを圧縮． 20.25 GiB → 0.4GiB + 1.7GiB．学習時間は33%増． • 推論時，アミノ酸残基数2180個だと，154.4GiB必要． mini-batch likeなchunkを考慮し0.3 GiBに． Wakasugi, Panasonic Corp.

22.

概要再掲 22 タンパク質に特化した作りこみを行い、CASP14圧勝 CASP14のランキング正解(緑)と予測（青） ※点線は便宜的に追加データの前処理メインのNN 構造の出力 Wakasugi, Panasonic Corp.

23.

Ablation results・Cycleの効果 23 self-distillationの効果が少し大きいか ■性能値： GDT（Global Distance Test）正解値に対し予測値が，所定のカットオフ半径位以内に収まっている割合 ←recycle中の挙動． recycleの進行とともに，正解に近づいている． Wakasugi, Panasonic Corp.

24.

残課題 24 一部のたんぱく質の予測に難あり • • • MSA depthが30以下の場合，性能低下．100くらいで収束．その他，鎖内結合が少ない場合に弱いとのこと templateによるカバー範囲？が少ないと性能低下 Wakasugi, Panasonic Corp.

25.

Discussion 25 暗黙的な物理制約を自然に獲得できている • • • バイオインフォと物理的観点から手法を構築することで，最小限のマニュアル特徴量でも、うまく構造の性質をつかむことができた →水素の結合長などは，陽に含んでいないが，うまく予測できている欠落した物理的背景もうまく推論できており，intertwined homomers（アミノ酸配列が同一単位の繰り返しで構成され、全体が絡み合ったもの？）もうまく予測できている（下図）たんぱく質の必須解析ツールになることを期待．※github公開．有志によるブラウザ経由のツールもある同じグループから，解析よりの論文もすでに発表されている Highly accurate protein structure prediction for the human proteome https://www.nature.com/articles/s41586-021-03828-1 Wakasugi, Panasonic Corp.

https://www.nature.com/articles/s41586-021-03828-1

26.

感想 26 • Transformerなどを利用しつつ，細部にわたって工夫を凝らしている印象． Lossの組合せ、各種crop、データの前処理・選定、Recycle • ゲノム解析 → タンパク質構造同定 → 機能分析の流れが加速することが期待される余談： web記事[3]によると，AlphaFold2のファイル容量は2.2TBらしい RoseTTAFoldという手法もワシントン大学から発表されているとのこと [3]https://www.itmedia.co.jp/news/articles/2107/20/news136.html 訪問日2021/09/09 Wakasugi, Panasonic Corp.