【AAAI論文読みLT会】マルチモーダル拡散モデルによる治療用ペプチド生成

432 Views

August 12, 24

#aaai論文読みlt会 #マルチモーダル拡散モデル #治療用ペプチド生成 #Contrastive Learning #Transformer #E(3) EGNN

スライド概要

2024年8月10日に実施した、KaiRA×スクラムサイン共催の「AAAI論文読みLT会」の発表資料

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 28.8K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 21.2K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 17K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 14.4K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

京都大学人工知能研究会KaiRA 11.2K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 10.9K

各ページのテキスト

AAAI論文読みLT会 2024/08/10 マルチモーダル拡散モデルによる治療用ペプチド生成京都大学理学部 3回生山下素数 0

自己紹介 • 所属京大理学部3回生 • 興味分野，インターンとか分野に絞らず興味を持ったものを勉強中 • 個人的な趣味とかタイピング(?) J-POP・アニソン・ボカロ・曲のカバーを聴く(?) (ぶっちゃけあまり詳しくはない。86、ギルティクラウン、やましたもとかず山下素数リゼロ、SAO、 EGOIST の曲、よう実opなどが好み。最近で言えば【推しの子】ファタールの棗いつき×藍月なくるによるカバーが凄かった) 1

アジェンダ ◼ 紹介する論文 ◼ タスクの説明 ◼ 手法の説明 ◼ 手法の新規性 ◼ 実験結果 2

アジェンダ ◼ 紹介する論文 ◼ タスクの説明 ◼ 手法の説明 ◼ 手法の新規性 ◼ 実験結果 3

紹介する論文紹介する論文は A Multi-Modal Contrastive Diffusion Model for Therapeutic Peptide Generation https://doi.org/10.1609/aaai.v38i1.27749 Contrastive Learningによる損失関数も用いたマルチモーダル拡散モデルの論文内容を絞って紹介する以降に現れる図は明示されていなければこの論文から引用されたもの 4

https://doi.org/10.1609/aaai.v38i1.27749

アジェンダ ◼ 紹介する論文 ◼ タスクの説明 ◼ 手法の説明 ◼ 手法の新規性 ◼ 実験結果 5

タスクの説明そもそもペプチドとは？複数個のアミノ酸がペプチド結合した化合物どの種類のアミノ酸が一列に結合しているのかを表す文字列で、ペプチドの構造式を表すことができる例: アミノ酸A, B, Cが結合していたらABC 順番にも意味があることに注意 ABC≠BAC https://kimika.net/y2pepuketsu.html 6

https://kimika.net/y2pepuketsu.html

タスクの説明一方で、アミノ酸の結合方法は3次元的には複雑な形各アミノ酸の3次元座標も知りたい今回のタスク治療用ペプチドの構造式を表す文字列と各アミノ酸の3次元座標を生成したい！ 7

アジェンダ ◼ 紹介する論文 ◼ タスクの説明 ◼ 手法の説明 ◼ 手法の新規性 ◼ 実験結果 8

10.

手法の説明拡散モデルで文字列と座標を生成する！生成した文字列と座標の一貫性も担保しつつ、治療用ペプチドと治療用でないペプチドを区別できるようにContrastive Learning(CL)を使う 9

11.

手法の説明ノイズ推定のモデルは次のような感じ文字列のノイズ推定は Transformer 座標のノイズ推定は E(3) EGNN(E(3)同変グラフニューラルネットワーク) を使う E(3) EGNNの同変性 https://pseudo-theory-of-everything.hatenablog.com/entry/2021/06/06/214617 10

https://pseudo-theory-of-everything.hatenablog.com/entry/2021/06/06/214617

12.

手法の説明文字列座標 Inter-CL 同じペプチドのときに文字列の embeddingと座標のembeddingの類似度を上げる Intra-CL 治療用ペプチドのembeddingと他の治療用ペプチドのembeddingの類似度を治療用ペプチドのembeddingと他の治療用でないペプチドのembeddingの類似度より大きくする 11

13.

手法の説明 Inter-CL 文字列 Intra-CL 座標ノイズ推定の誤差を表す損失関数と重 Eはcosine類似度を表すみ付き平均を取って損失関数にする 12

14.

アジェンダ ◼ 紹介する論文 ◼ タスクの説明 ◼ 手法の説明 ◼ 手法の新規性 ◼ 実験結果 13

15.

手法の新規性過去の研究では次のような手法があったタンパク質生成の拡散モデル Contrastive Learning ⚫ テキスト条件付きガイダンス拡散モデルで構造式を生成 ⚫ E(3) EGNNを用いて構造の座標を予測 ⚫ 抗体残基の位置と方向を同変な拡散モデルを用いて考える ⚫ テキストと画像の間の類似度を測ることができるembeddingを作成する ⚫ 正例と負例を効率的にサンプリングしてよりスパースなテキストの embeddingを作成する ⚫ 1種類のproteinで学習した conformerを複数種類で作成し、 augmentationに用いるペプチドの構造式と座標を一緒に生成する拡散モデルを初めて提案より良いembeddingを作るために CLを用いた本手法の損失関数を提案 14

16.

アジェンダ ◼ 紹介する論文 ◼ タスクの説明 ◼ 手法の説明 ◼ 手法の新規性 ◼ 実験結果 15

17.

実験結果 ↓不安定性 ↓抗菌性 ↓抗ガン性 AMPとACPは治療用ペプチドのデータセット本手法はMMCD 他手法については説明を省略する他手法に比べて良い精度が出ている ↑抗菌ペプチドの細菌膜タンパク質への結合度 ↑構造の信頼性を評価する指標 16

18.

実験結果文字列の長さを変えても他手法よりも良い精度が出ている 17

19.

まとめ ➢ Contrastive Learning(CL)による損失を使うことで、生成した文字列と座標の一貫性も担保しつつ、治療用ペプチドと治療用でないペプチドを区別できるような embeddingを持つ拡散モデルが学習できる ➢ 文字列生成のモデルにはTransformerを用いている ➢ 座標生成のモデルにはE(3) EGNNを用いており、自由度を落とすことでモデルを学習しやすくしている 18