【論文紹介】医療LLMsのサーベイ論文：A Survey of Large Language Models in Medicine: Principles, Applications, and Challenges

8.3K Views

December 16, 23

#ai #machine learning #deep learning #ai in medicine #medical artificial intelligence #医療 #医療ai #generative ai #医療LLM #大規模言語モデル #自然言語処理 #医療情報学 #サーベイ論文

スライド概要

「論文紹介」

近年ChatGPTをはじめとした大規模言語モデル（LLM）が研究者だけでなく，一般人にも普及しています．特に最近では様々な分野での利用が模索されています．ここではLLMの医療応用についての研究内容や今後の展望と課題についてサーベイ論文から紹介します．

Yuki Tashiro

@yuki-tashiro

スライド一覧

初めまして医療AIに興味があります。松尾研究室のDL輪読会やAcademiX Medicalに所属しています。大学の研究室やいくつかのインターン先で、医療系のデータ（テキスト・画像・センサデータ）の解析に関する研究しております。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

眼科AI学会 AIコンペティション 8th solutionと上位解法

ai machine learning deep learning ai in medicine medical artificial intelligence 医療学会 kaggle

Yuki Tashiro 5.9K

CheXalign: Preference fine-tuning in chest X-ray interpretation modelswithout human feedback

ai machine learning deep learning ai in medicine medical artificial intelligence 医療医療ai generative ai

Yuki Tashiro 189

学振特別研究員になるために～2025年度申請版

学振 dc1 dc2 jsps pd

大上雅史 788K

ZAZA株式会社_会社紹介

ZAZA株式会社 391.9K

StampFlyで学ぶマルチコプタ制御

伊藤恒平 369.8K

研究に使える便利なフリーソフト ImageJ

imagej 放射線技師

片山豊 365.9K

各ページのテキスト

医療LLMsのサーベイ論⽂ A Survey of Large Language Models in Medicine: Principles, Applications, and Challenges Yuki Tashiro 九州⼤学⼯学部機械航空⼯学科 4年 Technical University of Munich, Informatics (Exchange Program)

2 書籍情報 • タイトル：A Survey of Large Language Models in Medicine: Principles, Applications, and Challenges • 出典：https://arxiv.org/abs/2311.05112 • 著者：Hongjian Zhou et al.（数⼗⼈） • コード：なし．ただしGitHubあり． • 公開⽇時：2023/12/09 • 注意事項 • ※特に出典が明記されていない図は当論⽂から引⽤ • • 右のロゴもまた本論⽂から引⽤専⾨でないためLLMの⽤語説明を⼀部省略・簡易にしている点にご了承ください

Appendix 1. イントロダクション 2. 医療LLMsの概要 3. ⽣物医学の⾃然⾔語タスク 4. 臨床応⽤ 5. 課題 6. 今後の展望 3

4 1．イントロダクション • 近年ChatGPTをはじめとしたLLMsの研究が増加 Pipeline • • 医療従事者の⽀援や患者ケアの改善を⽬的とした医療⽤ LLMの開発と応⽤が研究上の関⼼を⾼めている → ⼀般的なLLMを医療分野に適応させ，医療⽤LLMの開発する試みあり Principles §2 Data しかし，既存の研究ではQAタスクばかりで臨床応⽤の研究は少ない．最近の研究のテーマは以下の通り • • • • 電⼦カルテ（Electronic Health Records）退院サマリー⽣成（discharge summary generation）ヘルス教育（health education）ケア・プランニング（care planning） Downstream §3 Medical Large Language Models Applications §4 Contributions 1. 2. 医療におけるLLMsの包括的なサーベイを⾏い， 10の⽣物医学的な下流タスクにおける評価をまとめる Challenges §5 医療⽤LLMsの臨床応⽤に焦点を当て，様々な臨床現場での展開のための実⽤的なガイドラインを提供臨床現場における医療⽤LLMsの活⽤の課題を明らかにし議論．この分野におけるさらなる研究開発のヒントを得ることを⽬的 BioBERT[28]; PubMedBERT[29]; SciBERT[30]; ClinicalBERT[31] et al. Fine-tuning General LLMs DoctorGLM[21]; HuatuoGPT[32]; LLaVA-Med[33] et al. Prompting General LLMs DeID-GPT[34]; ChatCAD[35]; Dr.Knows[36]; MedPaLM[14] et al. Clinical Knowledge Bases DrugBank; NHS Health; NHS Medicine et al. Pre-training Data PubMed[37]; Literature[38]; MIMICIII[39]; MedDialog[40] et al. Fine-tuning Data Qilin-Med[41]; BianqueCorpus[42]; MD-EHR[43] et al. Discriminative Tasks Question Answering; Entity Extraction; Relation Extraction; Text Classification; Natural Language Inference; Semantic Textual Similarity; Information Retrieval et al. Generative Tasks Text Generation; Text Summarization; Text Simplification et al. Performance Comparisons GPT-3.5-turbo; GPT-4; SOTA Task-specific Fine-tuned Models; Human Experts Medical Diagnosis Chatcad[35]; LLM4medicine[12] et al. Formatting and ICD Coding PLM-ICD[44]; LLM-ICD[45]. Clinical Report Generation GPT-4V for Medical[46]; Qilin-Med-VL[47] et al. Medical Education LLM for medical education[48] et al. Medical Robotics GRID[49]; Nested -UIS[50] et al. Medical Language Translation Advant GLM for Medical Education[51] et al. Mental Health Support ChatCounselor[52] et al. Hallucination Med-halt[53]; Selfcheckgpt[54] et al; Lack of Evaluation Benchmarks and Metrics Truthfulqa[55]; HaluEval[56] et al. Domain Data Limitations Model Dementia[57] et al. New Knowledge Adaptation EditingLMM[58] et al. Behavior Alignment Webgpt[59]; Language are rewards[60] et al. Ethical & Legal and Safety Concerns Jailbroken[61]; Jailprompt[62] et al. New Benchmarks Future Directions §6 3. Pre-training from Scratch Interdisciplinary Collaborations Multi-modal LLM Medical Agents Figure 1: An overview of the practical guides for medical large language models. 医療LLMsの概要 5

5 2．医療LLMsの概要(1. Pre-training) • 医療における事前学習：⼀般的に構造化テキストと⾮構造化テキストの両⽅を含む⼤規模な医療テキストのコーパスに対してLLM を学習し，豊富な医療知識を学習 • 医療⽤事前学習でよく使⽤される医療コーパスデータセット • 医療⽤LLMsの事前学習の⽬標 • • • PudMed MIMIC-Ⅲ clinical notes PWC literature • マスク⾔語モデリング • 次⽂予測 • 次トークン予測 ※ニーズによって変化 →質問の回答能⼒向上に効果あり • よく評価に利⽤される下流タスク • • 質疑応答固有表現抽出（named entity extraction, NER） • 意味：テキスト中にある固有名詞（⼈名、組織名），⽇付や⾦額などの数値情報といった，固有表現（Named Entity）と定義づけられた単位の単語を抽出すること →分類タスクで効果あり • よく使⽤されるベンチマーク • • BLUE（Biomedical Language Understanding Evaluation） BLURB（Biomedical Language Understanding & Reasoning Benchmark）医療LLMsのモデル概要図

6 2．医療LLMsの概要(2. Fine-tuning) Fine-tuning • 意味：既存のLLMを医療データで再度学習させること．LLMをゼロから学習させるための膨⼤な計算能⼒・コスト・時間を抑える⼿法⼀般的なファインチューニング⼿法 • Supervised Fine-Tuning (SFT) • • • Instruction Fine-Tuning (IFT) • • • • ⾼品質な医療コーパス（医師と患者の会話・医療質問応答・ナレッジグラフなど）で次トークン予測などのタスクで追加学習を⾏うこと次に説明するIFTと⽐較して，SFTはデータ量が多いほど良い命令・⼊⼒・出⼒の3つからなるデータセットを作成し，様々な答え⽅で推論させる⽅法この⽬的は，次トークンを正確に予測するのではなく，与えられた命令に⼀致するようにモデルの推論能⼒を向上させ，出⼒を調整することこのIFTは量よりもデータが⾼品質であることや多様性のある分野であることが好ましい Parameter-Eﬃcient Tuning • • ⽬的はLLM のファインチューニングに必要な計算量とメモリ量を⼤幅に削減することで，モデルのパラメータの⼀部のみをファインチューニングする．主な⼿法が以下の3つ． Low-Rank Adaptation (LoRA) • Preﬁx Tuning • • 各Transformer層のAttenntion機構に学習可能な低ランク⾏列を追加する⼿法． • 各Transformer層の⼊⼒に連続したタスク固有のベクトルを追加する⼿法．モデルの⽣成をガイドするための追加コンテキストとして機能 Adapter Tuning • 各トランスフォーマー層に⼩さなNNモジュールを追加する⽅法． Instruction Fine-Tuningの概要図参考⽂献

https://arxiv.org/pdf/2109.01652.pdf

7 2．医療LLMsの概要(3. Prompting) ファインチューニングは事前学習より計算資源とコストを節約できるが以前として⾼コストだが，プロンプティングはその必要はなくLLMに私たち⾃⾝が質問を聞くときに⾼い精度の答えを出してもらうために私たち⾃⾝が⼯夫するもの • Zero/Few-shot Prompting • • Chain-of-Thought (CoT) Prompting • • 複雑な下流タスクを解くときに，中間的な推論過程を⽣成するようにプロンプトを調整するもの． Self-consistency Prompting • • • Few-shot Promptingとは，LLMに指⽰する時に幾つかの例⽂を書いた後にタスク実⾏を要求するもの．Zero-shot Promptingはそれを全くしないもの． Few-shot Chain-of-Thought の出⼒結果の多数決を⾏い最終的な出⼒結果にする⼿法．この⼿法は診断の⼀貫性や推奨が重要な医療領域で特に有⽤と⾔われている． Prompt Tuning and Instruction Prompt Tuning • プロンプトをモデルの重みに付け加えるもの Prompt Tuning解説参考⽂献 ※詳しい使い⽅と他の⼿法の詳しい資料 Qiita記事

8 3．⽣物医学の⾃然⾔語タスク⼀般的な2つの下流タスク • 識別タスク • • • • • 意味：与えられた⼊⼒データに基づき，データを特定のクラス/カテゴリに分類/ 区別するタスク種類：質問応答，固有表現抽出，関係抽出，テキスト分類，⾃然⾔語推論，意味的テキスト類似度，情報検索⼊⼒：医学的質問，臨床記録，医学⽂書，研究論⽂，患者の電⼦カルテ出⼒：ラベル，カテゴリなど⽣成タスク • • • • 意味：与えられた⼊⼒に基づいて流暢で適切な(新しい)テキストを正確に⽣成すること種類：医療テキスト要約，医療テキスト⽣成，テキスト簡略化⼊⼒：病状，症状，患者の⼈⼝統計，⼀連の医療メモ，検査結果など．（退院サマリー⽣成タスクの場合）出⼒：病状の診断勧告または個別化された指導情報（退院サマリー⽣成タスクの場合）性能⽐較（右図） • ChatGPTのような汎⽤LLMsが性能が⾼いタスク • • クローズエンド型：正しい答えがすでに複数の候補で提供されているもの特化型LLMsのが性能の⾼いタスク • オープンエンド型：与えられておらず⾃⼒で回答を予測する必要のあるもの GPTとファインチューニングの性能⽐較

9 4．臨床応⽤(1) 1. 医療診断 • 利点 • ⽋点 • 専⾨医療への機会の増加 • LLMを医療診断の唯⼀のツールとして使⽤する際の明確な限界として，患者からの主観的な⼊⼒に完全に依存すること．つまり画像診断と⽐較して客観性が低い点．患者のプライバシーアルゴリズムの説明責任出⼒のバイアス • • • 2. フォーアティングと国際疫病分類（ICD） • • • 3. 4. 意味：臨床セッションの診断・⼿続き情報を標準化する⼿法 ICDのラベリング処理は時間が必要であり，医師⾃⾝で⾏われることが多いため， LLMsでの⾃動化は有⽤．LLMは，臨床記録から医学⽤語を分離し，対応するICD コードを割り当てることで，ICDコーディングの⾃動化を⽀援することが可能注意点：バイアス・ハルシネーション臨床報告⽣成 • 利点 • ⽋点 • • 臨床医の臨床作業負荷の軽減より正確な要約⽣成が可能 • • • ハルシネーション仮説に基づいた視点でなく，テキストを表⾯的に捉えるような視点で書くこと⼈がするより冗⻑的な⽂章になる傾向医療教育 • 2つの効果的なLLMsの活⽤⽅法 • 利点 • ⽋点・課題 • • 医療の専⾨家のためのサポーター⼊⾨者や⼀般市⺠のためのサポーター • • • 医学⽣が医学試験などに向けての問題演習やそのフィードバックに使える患者⾃⾝が⼿軽に平易な表現・語彙で病気を理解できる専⾨家がより信頼できる情報にアクセスできる • • • 倫理的な学習の不⾜トレーニングデータセットから⽣まれるバイアスハルシネーションのような誤った⽂章⽣成 Microsoftのヘルスケア組織へのAIソリューション

https://news.microsoft.com/ja-jp/2023/10/16/231016-microsoft-introduces-new-data-and-ai-solutions-to-help-healthcare-organizations-unlock-insights-and-improve-patient-and-clinician-experiences/

10.

10 4．臨床応⽤(2) 5. 医療ロボット 6. 医療系の⾔語翻訳ロボットの事例 • ⼿術中，患者の搬送，看護師の補助，医療リハビリテーションなど • 医療スタッフの不⾜に対処 • ⼈間の⾝体能⼒を超えた作業を⾏える LLMsの応⽤例 • ⼈間とコンピュータの柔軟なコミュニケーションが可能 • ロボットを動かす移動の経路計画に利⽤可能懸念点 • バイアスやハルシネーションによる判断ミス 2つの使⽤例あり 1. 任意の2つの⾔語間の翻訳 2. 利点 • グローバルなコラボレーションを促進．⾔語の壁はこの状況において⼤きな障壁の⼀つ専⾨⽤語を平易な語彙・⽂章に変換利点 • 学⽣のスキルレベルに応じた表現が可能 • 患者，特に⾼齢者などの医療知識の乏しい⽅への医療⾏為の理解促進につながる懸念点 • ハルシネーション • 意図せず誤解させたり判断を誤らせる表現を⾏う可能性 7. メンタルヘルスサポートチャットボットでのLLMsの利⽤ • 利点 • メンタルヘルス治療リソースへのアクセスが⼤幅に向上 • ⼀般的にメンタルヘルスの診断と治療の成果には，患者が⾃分の状態についてどれだけ情報を開⽰するかが重要チャットボットへの⼼理的開⽰が積極的であるほど，正確な診断とそれに基づく治療計画の精度が向上 • • • 懸念点 • 特に，経済的または物理的な制約のある患者への参⼊障壁を⼤幅に下げられる書き⾔葉と話し⾔葉をうまく分けられないこと例：医療⾯接AIチャットボット

https://aismiley.co.jp/wp-content/uploads/2022/12/img_338733_1-980x515.png

11.

11 5．課題 1. Hallucination（ハルシネーション, 幻覚）意味：⽣成された出⼒が不正確な情報または事実に反する情報を含む現象その結果起こること • 誤った医療情報の拡散，誤診，不適切な治療，有害な患者教育を引き起こす可能性現状の解決策 • 学習時の補正 • モデルの重みを調整することで幻覚を緩和し，幻覚の出⼒を⽣成する確率を減らすこと（⼿法：事実⼀致の強化学習・対⽐学習） • ⽣成時の補正 • 検索補強補正 • 複数のサンプルを作成し信頼度スコアを出すことで幻覚を識別 • 正しい⽂章をプロンプトで使⽤したり，Chain-of-Thought (CoT) プロンプティングを使⽤したりする 2. 評価ベンチマークと評価指標の⽋如 3. ドメインデータの制限 4. 新しい知識適応 • • • より医学的でLLMに特化したベンチマークや指標を開発することが必要データ収集の課題として，アクセスするために広範な倫理的，法的，プライバシーに関する⼿順が必要データへのラベル付けがないことがある知識を追加（再学習）する時の問題点 • LLMをいかにして古い知識を「忘れる」ようにするかであり、学習データからすべての「古い知識」を取り除くことはほぼ不可能であり，新しい知識と古い知識の間の不⼀致は意図しない関連付けやバイアスを引き起こす可能性がある • 知識を適時に追加することで、どのようにリアルタイムにモデルを更新していくかであり，実際の実装において最新の医学知識を正確かつタイムリーに更新することが重要な医療分野において、LLMを使⽤する上で⼤きな障壁となる解決⽅法 • モデルのパラメータを変更する⽅法 • 推論時に外部の知識情報をプロンプトに加える⽅法 5. ⾏動アライメント（Behavior Alignment） 6. 倫理的・法的・安全に関する懸念 • • 意味：LLMの⾏動がそのタスクの⽬的に合致していることを確認するプロセスのこと現状この解決策はない

12.

12 6．今後の展望 1. 新しいベンチマークの紹介 • • 2. 現状の課題：従来のベンチマークは，主に医学的な質問応答の精度を測定するもので，LLMに必要な臨床スキルの全領域を⼗分に捉えていない LLMの評価に⼈間中⼼の標準化された医学検査を使⽤することに批判が向けられ，これらの検査に合格しても，実際の臨床現場で求められるニュアンスのある専⾨知識におけるLLM の熟練度が必ずしも反映されない学際的なコラボレーション • 課題解決に向けこれが重要 • 3. 時系列，視覚，聴覚データと統合されたマルチモーダル LLM • 4. 特に現状のAIはテクノロジー企業がリードしている点に懸念あり時系列データを処理できる医療⽤LLMはごくわずかしか存在しない医療⽤エージェント（Medical Agents） Googleの医療特化LLM: MedLM 数ヶ⽉以内にマルチモーダルモデル(Gemini)ベースのモデルを公開予定

https://cloud.google.com/blog/ja/topics/healthcare-life-sciences/introducing-medlm-for-the-healthcare-industry

13.

13 感想 • 医療系LLMsについて簡単かつ丁寧にまとまっていたのでいい勉強になりました • 現在はビックテック主導のAI開発だが，臨床現場で使⽤するには実際の医師が主導することが不可⽋という印象です • ビックテックも医療現場のデータが喉から⼿が出るほど欲しい現状だと考えています • 気になった点としては，医療特化モデルで特に有効な⼿法などの研究やハルシネーションの低減⽅法についてサーベイしたいところです Linkedin: yuki-tashiro Twitter: y_k_c_t_