【DL輪読会】Towards Generalist Biomedical AI (arXiv)

3.2K Views

September 29, 23

#Med-PaLM M #Biomedical AI #MultiMedBench #Google Research #DeepMind

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 85.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.5K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 55.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 40K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 34K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 33.8K

各ページのテキスト

Towards Generalist Biomedical AI (arXiv) Yuki Tashiro, B4, Biofunctional Engineering Lab, Kyushu University 1

書籍情報 • • • • • • • • タイトル：Towards Generalist Biomedical AI 出典：https://arxiv.org/abs/2307.14334 著者：Tao Tu et al.（数十人）所属：Google Research, Google DeepMind コード：非公開公開日時：2023/07/26 選定理由 – 自身の関心がAIの医療応用（特にウェアラブルデバイス） – マルチモーダルな汎用医療AIで最初の論文 – 大規模モデルにおける医療分野への社会実装のマイルストーンと推察 ※特に出典が明記されていない図は当論文から引用関連参考文献 • 「Multimodal medical AI」 – 記事の著者はHead of Health AI, Google ResearchのGreg Corradoなど 2

Abstract • マルチモーダルなバイオメディカルベンチマーク”MultiMedBench”を作成 – 14の多様なタスク • 生物医学特化の大規模マルチモーダル生成モデル”Med-PaLM M”を作成 – 既存のSOTAと同等またはそれ以上の精度いくつかは特化型AI以上の精度 – zero-shot汎化性能も報告 3

Introduction 医学はマルチモーダルな学問分野で，臨床医は患者を見る際に様々なデータから解釈 • 既存の特化型AIでは性能や有用性が制限 • 基盤モデルはこの課題を打破する可能性 Contributions • マルチモーダルバイオメディカルベンチマークの紹介(MultiMedBench) – 汎用生物医学AIのための学習と評価のための14の多様なタスクに対するベンチマーク • 最初の汎用的な生物医学AIのデモ(Med-PaLM M) – 複数のタスクにおいてSOTAと同等以上の成果を出す • 創発的能力の証拠 – Zero-shot医学的推論や新規の医学的概念とタスクへの一般化 • 出力における人間による評価 4

Introduction Med-PaLM Mについて • 最初の生物医学分野のマルチモーダルモデル • 単一の重みでそれぞれのタスクをこなせる • 柔軟なマルチモーダル配列間アーキテクチャ • 様々なタイプのマルチモーダル生物医学情報を容易に取り込める 5

Med-PaLM M: Generalist Biomedical AI（モデル詳細）モデル • PaLM-Eをベースとし，MultiMedBenchでfinetuning • 12B, 84B, 562B • Adafactor optimizer, momentum: β1 = 0.9, dropout rate:0.1, constant learning rate schedule データセットと前処理 • 画像は全て224 × 224 × 3にリサイズ 6

Med-PaLM M: Generalist Biomedical AI（モデル詳細） PaLM-Eについて • 540B PaLM LLM + 22B ViT 7

関連研究 • • • • • • • • CLIP：この視覚的言語モデルは言語ラベル付き画像データセットで学習 Med-PaLM M：PaLM-Eという大規模視覚言語データセットで事前学習したモデルに，医療分野のデータでファインチューニング Gato：言語・視覚・ロボット制御 Foundation models for generalist medical artificial intelligence：汎用医療AIの概念についてモデルなしでレビュー（nature, 2023年4月） Geneformer（Transfer learning enables predictions in network biology）：大規模なトランスクリプトームデータで事前トレーニングされたコンテキスト認識型のアテンションベースの深層学習モデル BiomedGPT：言語モデル(LM)とマスク画像インフィリングの目的を組み合わせて，医療画像，医学文献，臨床ノートの多様なソースで事前学習したマルチタスク生物医学基盤モデル – Med-PaLM Mと異なり，下流タスクを行うためにはタスク固有のデータと微調整が必要 LLaVA-Med：PubMedとGPT-4を用いて，データセットに続くマルチモーダルな指示をキュレーションし，それを用いてLLaVAモデルを微調整 – Med-PaLM Mと異なり，実験は3つの医療用視覚的質問応答データセットと、医療画像を条件とした会話の定性的な例に限定．Med-PaLM Mはより包括的． BenchMD：19の一般に公開されているデータセットと，1Dセンサーデータ，2D画像，3Dボリュームスキャンを含む7つの医療モダリティ – MultiMedBenchに一番近い研究で，本データセットの方がより広範囲 8 – これは分類タスクに焦点を当てている

https://www.nature.com/articles/s41586-023-05881-4

マルチモーダル医療 AIのさまざまなアプローチ 9

10.

MultiMedBench: A Benchmark for Generalist Biomedical AI 12個の非識別化されたオープンソースデータセットタスクの種類（5種類） • 質問応答・レポート生成と要約・視覚的質問応答 (VQA)・医療画像分類・ゲノムバリアントコーリングモダリティ（7種類） • テキスト・放射線学（CT, MRI, X-ray）病理学，皮膚学，マンモグラフィー，ゲノミクス出力形式 • テキスト生成（分類を含む全てのタスクで） 14の個別タスク 10

11.

評価と結果(1/3) ：MultiMedBenchでの性能比較 SOTAと同等またはそれ以上の性能 • 12タスク中，5つはSOTAを上回る（2タスクでは事前SOTAを見つけられず） • 残りのタスクも競争力のある結果 11

12.

評価と結果(1/3) ：Med-PaLM M モデルスケール間の性能 Med-PaLM M：12B, 84B, 562B • 言語タスクでは，スケールで精度の大幅な改善 • – （QA, VQA, レポート要約）マルチモーダルタスクでビジョンエンコーダーの性能にボトルネック – 84Bと562Bでビジョンエンコーダーは同じサイズ(22B)． – 562Bで性能が悪い原因は，大きなモデルでは学習ステップが少ないことと，テンプレート文と多くの条件で表現空間が限定されてる可能性，そして冗長的になるため 12

13.

評価と結果(2/3) ：言語によるゼロショット汎化の評価検証手法 • MRIによる結核検出タスクの精度で確認 • SOTAは特化型のアンサンブルモデル結果 • タスク固有の画像の学習なしに競争力のある結果 13

14.

評価と結果(3/3) ：レポート作成の人間による評価 • • タスクに特化した指示とテキストのみの模範解答が促され，画像の所見を書くレポートを生成 Med-PaLM M 12Bは首尾一貫したレポートを生成できなかった – →ゼロショットCOT推論におけるスケーリング重要性を示す生成した解答放射線科医の注釈正しい部分的に正しい誤り 14

15.

議論 • • • • • • • ベンチマークの欠如が汎用医療AIの発展のためのボトルネックであること • 今回のサンプル数は約100万． • データセットのサンプル数やモダリティの多様性，タスクの多様性が限られている（例えば，transcriptomics, proteomics）ドメイン固有の医療データを用いたファインチューニングがSOTAと同等以上の性能を出すことに重要マルチモーダルAIのスケーリングが困難であること • 自然言語ではスケーリングにより精度の向上が示されているが，医療分野ではデータ不足が原因でより困難であること • ジェネラリストなモデルで，モデリティの組み合わせからデータを解釈する必要があるタスクでは，最も性能が低いものによって性能がボトルネックとなること • 医療画像分類タスクでは，言語モデルのスケーリングが性能にほとんど影響しない．そのためボトルネックはビジョンエンコーダーによるものだと言える． • MultiMedBenchの少量の医療データでは、自然画像で事前学習したViTを医療領域に効果的に適応できない可能性 • 十分な量の医療データを用いて医療分野のマルチモーダルモデルのスケーリング効果について検証する必要汎用医療AIの技術的考察 • 汎用医療AIの入力に関して慎重な検討が必要 • このモデルでは数ショットのインコンテクスト学習には最適ではない放射線学のレポート作成におけるAIの進歩 • 40.5%の症例で人間の作ったレポートより好ましいという結果となり，先行研究と同等の性能が示され，将来有望であること汎用エージェントだけがマルチモーダル医療AIへのアプローチではないこと • 例えば，アダプタ層を持つ凍結エンコーダを活用してマルチモーダル生物医学AIシステムを接着したり、ツール使用によって専門の生物医学エンコーダやタスク固有のエージェントとインターフェースできるLLMを開発したりするなど。汎用医療AIの実世界応用に対する考察 15 • 実応用に向けた安全性と公平性についての検討が必要

16.

医療AIの将来について医療AIの未来について以下のような想定 • • ジェネラリストとスペシャリストのAIシステムが医療分野の諸問題に取り組む上で臨床医や研究者と協力・フィードバックを行うこと – 現在の複数の別々の専門医が患者のケアを行う上で協力することに似たこと単一の汎用医療AIが新しい領域でのゼロショットの洞察が生まれる可能性 – 医学の異なる分野からの洞察を統合した発見のツール，医学の異分野からの専門知識へのアクセスを提供する共通の支援地点となる可能性を示唆 16

17.

まとめまとめ • ”Med-PaLM M”はジェネラリストの医療AI開発の第一歩 • コードのオープンソース化❌ 手法は丁寧に書いている所感 • 今後の研究 – ファインチューニングなどのLLMと同様の研究が1年以内で盛んに • 医療分野ではhallucinationはさらに注意深くする必要あり • 禁忌肢的な解答を減らす手法の確立 – オープンソースかつより大規模なモデル – ビジョンモデルの大規模化 17

18.

付録：データセットの例（1/2） 18

19.

付録：データセットの例（2/2） 19