7.5K Views
September 29, 23
スライド概要
DL輪読会資料
DEEP LEARNING JP ”Diffdock: Diffusion steps, twists, and turns for molecular docking” ICRL2023 [DL Papers] Kensuke Wakasugi, Panasonic Holdings Corporation. http://deeplearning.jp/ 1
書誌情報 ◼ タイトル: Diffdock: Diffusion steps, twists, and turns for molecular docking ◼ 著者・所属: • Gabriele Corso, Hannes Stark, Bowen Jing, Regina Barzilay & Tommi Jaakkola • CSAIL, Massachusetts Institute of Technology ◼ その他情報: • ICLR 2023 poster • DiffDock: Diffusion Steps, Twists, and Turns for Molecular Docking | OpenReview • https://arxiv.org/abs/2210.01776 ◼ 選書理由 • 自身の業務(マテリアルズ・インフォマティクス)の隣の分野である 創薬・タンパク質構造推定等への深層学習技術の応用について興味があったため。 ※特に記載しない限り、本資料の図表は上記論文からの引用です。 2
目次 1. 創薬・タンパク質構造推定における深層学習の応用、周辺動向 2. DiffDock(ICLR, 2023) 3
4 分子ドッキング 分子の結合を判定することで、タンパク質構造から薬を設計 低分子リガンド(緑)とタンパク質ターゲット(黒)が 選択的に結合し、様々な機能を担う ドッキングを阻害する別の化合物を見つけ、薬として利用 引用:ドッキング (分子) - Wikipedia
5 深層学習の応用タスク 用途に応じて、様々なタスク設定で深層学習技術を応用 分子ドッキング DNA mRNA リガンド アミノ酸配列 分子生成 アミノ酸配列生成 引用:タンパク質 - Wikipedia タンパク質 フォールディング ◼ 創薬の流れ(イメージ) 1. 対象となるたんぱく質のアミノ酸配列を特定 2. アミノ酸配列からタンパク質構造を特定 3. 結合しうるリガンドをスクリーニング
6 周辺動向 AlphaFold2を契機に計算DBが拡充。各タスクの応用研究も進む ■NVIDIA BioNeMo Service(Nvidia Technical Blogより[1]) 手法 内容 AlphaFold2, ESMFold, OpenFold アミノ酸配列からのタンパク質構造予測 ESM-1nv, ESM -2 タンパク質特性予測 ProtGPT2 アミノ酸配列の生成 MegaMolBART, MoFlow 低分子生成 DiffDock 低分子とタンパク質の結合構造予測 ◼ その他周辺動向 • PDB(ProteinDataBank):実験構造209,957個、計算構造1,068,577個[4](23/09/25 現在) • DeepMind:AlphaFold2を用いて計算した、2億越えのタンパク質DBを公開[3] • Meta:ESMを開発。8億近くのタンパク質DB公開[5] • Microsoft:配列空間での拡散モデルEvoDiffを開発[2] [1]:Build Generative AI Pipelines for Drug Discovery with NVIDIA BioNeMo Service | NVIDIA Technical Blog [2]:Protein generation with evolutionary diffusion: sequence is all you need - Microsoft Research [3]:AlphaFold Protein Structure Database (ebi.ac.uk) [4]:RCSB PDB: Homepage [5]:ESM Metagenomic Atlas by Meta AI (esmatlas.com)
RFdiffusion(Nature, 2023) フォールディング予測に対し拡散モデルを適用し、アミノ酸残基数拡張・応用タスク拡張 De novo design of protein structure and function with RFdiffusion | Nature 7
書誌情報 再掲 ◼ タイトル: Diffdock: Diffusion steps, twists, and turns for molecular docking ◼ 著者・所属: • Gabriele Corso, Hannes Stark, Bowen Jing, Regina Barzilay & Tommi Jaakkola • CSAIL, Massachusetts Institute of Technology ◼ その他情報: • ICLR 2023 poster • DiffDock: Diffusion Steps, Twists, and Turns for Molecular Docking | OpenReview • https://arxiv.org/abs/2210.01776 ◼ 選書理由 • 自身の業務(マテリアルズ・インフォマティクス)の隣の分野である 創薬・タンパク質構造推定等への深層学習技術の応用について興味があったため。 ※特に記載しない限り、本資料の図表は上記論文からの引用です。 8
9 概要 正解配置への収束過程の逆を拡散過程として学習に利用 入力 リガンド、タンパク質 出力 リガンドのポーズ、確信度
contributions 1. 分子ドッキングタスクを生成タスクとして捉え直し、既存手法の課題を解消。 2. リガンドの姿勢・配置に関する自由度について、新たに拡散過程を定式化。 3. top-1予測精度(全原子がRMSD<2Åに含まれる比率)において、 38%を達成。 既存手法は探索ベース手法23%、深層学習ベース手法20%。 4. ESMFoldで計算したタンパク質構造に対しては、 28%で、従来比約3倍。 10
関連研究 1. 分子ドッキングタスク • タンパク質における結合箇所が既知/未知のタスクがあり、未知タスク(blind)がより汎用的 • 主な評価指標は、リガンドの正解配置との誤差<2Åとなる比率 2. 探索ベースドッキング手法 • 結合の良し悪しを評価するスコア関数と最適化手法の組合せで実装 • 探索空間が広すぎるため難しい 3. 予測ベースドッキング手法 • タンパク質の結合箇所やリガンドの姿勢を直接予測 • 予測時間は短縮されるが、精度は探索ベースに及ばない 4. 拡散生成モデル • タンパク質や分子の拡散生成モデルもあるが、原子数×3の空間での拡散を行っており、 分子ドッキングでは過剰。 11
既存手法の課題 回帰モデルにおける性能低下要因を生成モデルで解消 分子ドッキングの用途として、以下を想定 • 特定したドッキング姿勢・配置について、さらなる解析を実施 • 少数の候補が解析対象となる 予測誤差 0 よりも、所定の閾値以下(2Å)になることが重要 →回帰モデルよりも、生成モデル 正解のリガンドの姿勢に不確実性が存在。回帰モデルでは平均点を予 測してしまう。 生成モデルの構築とサンプリングで解消 12
13 分子ドッキングの拡散モデル リガンドの持つ自由度内での拡散過程を定義 ◼ 拡散を考える空間の次元 • 原理的には、n個の原子 → R3n ◼ リガンドの持つ自由度で考える(R3n 上の多様体) • リガンドの配置・方位、リガンド内部のねじれの自由度(6 + m 個) →(1) リガンドの並進3つ × (2) リガンドの回転3つ × (3) ねじれ角の変化 m個 ◼ 工夫点 • ねじれ角の変化 m個については、重心の移動や角運動量が発生しないように補正 • その結果、独立に拡散過程をサンプリングできるように → 効率化 ねじる前後のRMSDを最小化するように剛体変換で補正 →重心の移動や角運動量への影響が近似的に0に (Proposition 1)
14 多様体上での拡散過程 各群に対応したサンプリングを独立に実施 ◼ 拡散過程に対応する群 • 並進×回転×ねじり ◼ R3n空間上での、リガンドの姿勢を表す多様体。 seed cから操作gで到達できる領域 ◼ 関数表現 ◼ 拡散過程の実装 • 並進:正規分布 • 回転(Leach et al., 2022):3次元の単位ベクトル+回転角 • ねじり(Jing et al., 2022):wrapped正規分布 R3n A(g,c) g Mc c cを始点とし操作gで到達可能な点A(g,c)の全体がMc • Proposition 2.:Aが全単射であることを証明
15 訓練時(推論時)の問題点 初期値Cへの依存生成が問題。学習アルゴにおいて近似的に排除 ◼ 改良前 • • • ◼ 改良後 C(特に、Rdkitの推論するリガンドの初期ねじれ) の依存性が問題 Aが群作用(group action)であれば、初期値(r0など)を無視できる SO(2)については厳密には成り立っていないが、近似的に成り立つ 実験的にも良好に動作
16 アーキテクチャー 先行文献に準拠。球面調和関数を用いたGNNを利用 確信度モデル スコアモデル リガンド原子 cutoff 5Å リガンド原子 cutoff 20+αÅ アミノ酸残基 (タンパク質の主鎖) cutoff 15Å アミノ酸残基 (タンパク質の主鎖) タンパク質原子 ◼ 確信度モデル • 学習済みモデルと学習データに対し、 RMSD<2Åの二値分類タスクとして学習 • 推論時は、Nサンプルを並列に生成したのち、 確信度でランク付け。
17 比較実験 DiffDockでは骨格原子や側鎖の変動にロバストなため、計算構造タンパク質でも高精度 • PDBBind:PDBの内、タンパク質-リ ガンド複合体についてのデータセット • Holo crystal proteins • DBの複合体そのまま • Apo ESMFold proteins • ESMFoldで予測したタンパク質 構造を採用 • データ数[6] • 訓練17787個(2019以前) • 検証968個(2019以前) • テスト362個(2019以降) 探索+DLスコア評価 回帰予測 深層学習のSOTA 結合部位予測 +スコア評価 提案法 サンプリング数 [6]Lu, W., Wu, Q., Zhang, J., Rao, J., Li, C., & Zheng, S. (2022). Tankbind: Trigonometry-aware neural networks for drug-protein binding structure prediction. Advances in neural information processing systems, 35, 7236-7249.
確信度モデルの有効性 10-40サンプルで性能が収束。確信度による取捨選択は有用。 18
まとめ・所感 ◼ まとめ 1. 速度・精度面で既存手法(探索ベース手法23%、深層学習ベース手法20%)を 超える精度38%を達成 2. ESMFoldで計算したタンパク質構造に対してもロバストな予測(28%、従来比約3倍) 3. 確信度予測による、ランク付けも可能 ◼ 所感 • 拡散モデル自体が、MDと類似した発想であるため、親和性が高そう。 • リガンドの配置・方位・ねじりを効率的に拡散モデルとして表現する手順は 他分野にも参考にできそう 19
20 以下、補足資料
21 EquiBind リガンドの配置をワンショットで予測 [2202.05146] EquiBind: Geometric Deep Learning for Drug Binding Structure Prediction (arxiv.org)
22 GNINA 従来法(探索+スコア評価)の内、スコア評価を深層学習で構築 GNINA 1.0: molecular docking with deep learning | Journal of Cheminformatics | Full Text (biomedcentral.com)
23 TANKBind タンパク質のブロックとリガンドを個別に特徴量化し、マッチング TANKBind: Trigonometry-Aware Neural NetworKs for Drug-Protein Binding Structure Prediction | bioRxiv