Matsuo_lab_LLM_Day11金融パート_vF_講義後編集

pplication of ( omain pecific ) 2024/11/6 大規模言語モデル講座第11回前半パート（金融）講師：金剛洙（きむかんす）許諾なく撮影や第三者へ開示を禁止します © - , Y Y

エグゼクティブサマリー Domain Specific LLM（Day11、前半パート）で学んで欲しいこと • 目的： • ドメイン特化LLMについて理解する • 金融領域におけるLLM 研究・開発概観を理解する • アカデミック・社会実装バランスがとれた内容を提供 • 学習項目： • ドメイン特化LLMと何か、特に汎用LLMと違い何かについて • ドメイン特化各手法について • 金融特化LLM 進展状況とそ評価方法について • 金融領域におけるLLM 社会実装状況について © - , Y Y 2

3.

金剛洙（きむかんす）略歴 2014年東京大学工学部卒業 2017年同大学院工学系研究科修了シティグループ証券株式会社入社 2020年東京大学大学院工学系研究科松尾研究室入職株式会社松尾研究所入社主にAI 社会実装活動に従事 2022年株式会社松尾研究所取締役就任株式会社MK Capital設立／代表取締役就任（生成AIに特化したVCファンド、PKSHA Technologyと共同運営） 2023年金融庁特別研究員生成AIと金融について研究 X（Twitter） kangsoo_kim_ 研究範囲主にAI 社会実装特に金融領域 AI活用グローバルなAI周り動向 © - , Y Y 3

https://matsuo-institute.com/2023/04/422/

4.

アジェンダ序論 ● LLM 社会実装状況本論 ● ドメイン特化LLM ○ ドメイン特化背景 ○ ドメイン特化各手法 ● 金融特化LLM 進展と活用可能性 ○ 金融特化LLM 進展 ○ 金融特化LLM 評価について ● 金融領域におけるLLM 実活用 © - , Y Y 4

5.

LLM © 社会実装 - , Y 状況 Y

6.

情報変換器として LLM 「非定型と定型を高かつ大規模に行き来することができるようになった」というて、必要な文脈を与えることで、人間以上精度を発揮可能。 INPUT が本質的な変化である。加え OUTPUT 情報変換 • • • 人間日報、報告書、論文、、、問い合わせ、 SNS、、、過去経験から事前学習 • 非定型インプット問い合わせへ返答、示唆出し、 PR文章、、、要約・レポートなど非定型アウトプット大量データから事前学習 LLM プログラム・システム定型インプット • • テーブルデータ、数値データ、、、 APIへインプットなど定型アウトプット人間が設計組織あらゆる情報変換過程に、 LLMを導入可能。組織 DXが一足飛びに進む可能性がある。 © - , Y Y • • タグ分類、セグメンテーション、評価値、データ、、、 6

7.

LLM ハイプか？（ Gartner社）出典：Gartner社 https://www.gartner.co.jp/ja/newsroom/press-releases/pr-20240910-genai-hc © - , Y Y 7

https://www.gartner.co.jp/ja/newsroom/press-releases/pr-20240910-genai-hc

8.

Generative AI Map：「26 投資領域」「キープレイヤーマクロな見立て」 × 「グローバルスタートアップ200社超ミクロな探索動向」からAlgo Fund作成 21 Layer2 ×垂直金融・会計・法律・保険・HR 22 23 建築・製 Text/Code Agent システム 24 ゲーム・エンタメ 25 EC・リテール 26 他業界（ヘルスケア/ 教育等） Image/Video/3D 化学・バイオ (AI for Science*) Music/Voice 20 自律型Agent 19 Layer2 ×水平そ他・既存業務ソフトと連携（Office類ツールソフト等）ナレッジ・検索モデル＋ソフト連携 16 17 営業/販売/CS支援 18 キャラクター/アバター作成画像・動画編集 15 クリエイティブデザイン（マーケ・Web・APP）モデル直利用 10 文章生成 7 Layer０・1 （生成モデル） 4 インフラ出典：PKSHA Algorithm Fund資料 * AI for Science LLMや画像生成モデル以外 1 11 12 コード生成画像・動画生成 8 大規模言語モデル（LLM：Large Language Model）モデル 5 カスタマイズ・実装 2 計算設備（専用チップ・端末）基礎技術を活用することが多いと見られている © - 13 画像生成モデル・3D生成モデルデータ管理・トレーニングサポート計算力（GPU・クラウド・効率化） , 3Dモデル生成 Y Y 6 3 14 音声合成・作曲・音楽生成 9 音声生成モデル総合サイト・コミュニティデータベース（ベクトルDB） 8

9.

Generative AIへ米国投資 Map 上下に２分化が続く新興注目ベンチャー（設立’20年～、5mil USD調達）「26投資領域」累計調達金額ベース（mil USD）件数ベース（件）既存案件（～’23/12）既存案件前回まで調達追加調達新規増加分（’24/1～6） 26. 化学・ﾊﾞｲｵ（ AI for Science） 25. 他業界（ヘルスケア /教育等） Layer2 24. EC・リテール ×垂直 23. ゲーム・エンタメ 22. 建築・製 21. 金融・会計・法律・保険・ HR Agent 20. 自律型 Agent システム 19. ナレッジ・検索モデル 18. 画像・動画編集＋ソフト 17. NPC/アバター作成連携 16. 営業 /販売 /CS支援 15. クリエイティブデザイン 14. 音声合成モデル 13. 3Dモデル生成直利用 12. 画像生成 11. コード生成 10. 文章生成 09. 音声生成モデル Layer０・1 08. 画像・ 3D生成モデル 07. LLM 06. 総合サイト・コミュニティ 05. データ管理・ﾄﾚｰﾆﾝｸﾞｻﾎﾟｰﾄ 04. モデルカスタマイズ・実装インフラ 03. データベース 02. 計算力 01. 計算設備新規増加分（’24/1～6） EvolutionaryScale 142 Sierra 110 Layer2×水平出典：PKSHA Algorithm Fund資料分布 Augment 252 Cognition 196 Suno 125 Etched 125 合計： 358（＋158） Anthropic 850 X.ai 6,250 Waabi 283 合計： 27,722（＋12,075）「下＝LLM/インフラ」 or 「上＝Agent/Vertical」 © - , Y Y 9

10.

新興注目ベンチャー ’24年上半期で 190社・147億USDが増加新興注目ベンチャー（設立’20年～、5mil USD調達）「26投資領域」分布出典：PKSHA Algorithm Fund資料 © - , Y Y 10

11.

アジェンダ序論 ● LLM 社会実装状況本論 ● ドメイン特化LLM ○ ドメイン特化背景 ○ ドメイン特化各手法 ● 金融特化LLM 進展と活用可能性 ○ 金融特化LLM 進展 ○ 金融特化LLM 評価について ● 金融領域におけるLLM 実活用と話題 © - , Y Y 11

12.

ドメイン特化背景（なぜドメイン特化が必要か） © - , Y Y

13.

LLM 分類（ビジネス観点、 Enterprise LLM）企業目線でを導入する際に大きく分けて三つ選択肢があるが現状クローズが優勢。クローズに限界があるが、それ以外利用について、計算能力やデータ確保など、相当なリソースが必要となるため慎重な検討が必要。 LLM LLM 分類 ● ● 参照：https://towardsdatascience.com/how-enterprises-can-build-their-own-lar ge-language-model-similar-to-openais-chatgpt-23ff6696c69c https://prtimes.jp/main/html/rd/p/000000085.000024729.html © - ● , Y 利用状況（ ITエンジニア実態調査 2024）モデル利用上位クローズ LLMが圧倒的企業で利用という観点で特に Azureベースが多い（ヒアリングベース）一方でクローズソース課題も・・・ Y 13

14.

なぜドメイン特化 LLMが必要なか（利点がある）ドメイン特化させることで、各分野特有要求や複雑さに対応でき、より正確で安全で信頼性が高い回答が可能になる。またモデル効率性が上がり、計算コストも下がる。自社サーバー内にをホストすれ、安全性に関する様々な懸念も対応可能。汎用LLM • モデル制御 • モデル精度ドメイン特化 LLMなら限界・課題モデル挙動や応答を細かく制御することが難しい（プロンプトによる制御と、出てきたアウトプットを確認するというやり方） • 汎用にトレーニングされているで、特定文脈で言語理解深さや精度が、逆に不利になる • 特定タスクに特化したモデルを利用することで、挙動や応答を制御が可能自社製場合より細かい制御も可能 • ドメイン特化により、言語理解深さや精度が強みになる結果的にユーザー体験向上にも寄与 • プライバシー懸念サードパーティリスク • クラウドにデータを送られるため、情報漏えいリスクやセキュリティ懸念がつきまとう • 自社サーバーにホストすれ、情報漏えいリスクやセキュリティ懸念減らすことが可能 • プロバイダーサービス変更や価格変動に左右される • 自社サーバーにホストすれサードパーティリスクない（サーバーやGPU 価格変動リスクあり） • ドメイン情報・知識・背景（＋社内も）を含めて学習していることで、情報変換精度が上がる。ビジネスで活用できる範囲が広がる！ © - , Y Y 14

15.

（参考）なぜドメイン特化 LLMが必要なか ig ech中心に、各社がドメイン特化に関して記事を出しているが、ドメイン特化必要性に関する説明概同様内容である説明 • 専門分野データを学習させることで、汎用モデルよりもるかに的確で、そ分野特有微妙なニュアンスまで理解できる結果を出せる信頼性 • • 扱う範囲を絞ることで、関係ない情報に惑わされにくく、安定したアウトプットが期待できる理想的にハルシネーションが減る安全性と責任 • • 医療や法律など分野で、間違った情報が深刻な問題を引き起こす可能性がある特化型LLMに追加安全対策を組み込み、より信頼性高い情報を提供可能優れたユーザー体験 • 専門用語や文脈をより深く理解できるモデル達成できるモデル効率性 • • 大きな汎用モデルより、小さなモデルを専門分野用にチューニングする方が効率的な場合がある結果的に、（計算）コストを抑えながら質高いアウトプットが得られる（ ROIが高い）精度と専門性ため、利用しているユーザー体験が向上する、高い満足度を参照：https://cloud.google.com/blog/products/ai-machine-learning/three-step-design-pattern-for-specializing-llms?hl=en © - , Y Y 15

https://cloud.google.com/blog/products/ai-machine-learning/three-step-design-pattern-for-specializing-llms?hl=en

16.

（参考）ドメイン特化 LLM 利点汎用多様なタスクを処理できる一方で、ドメイン特化特定分野正確で信頼性が高く効率的な出力が可能。 broad な一般知識と deep な専門知識ギャップを埋めるもとも言える独自要件や複雑さに対応し、より参照：https://cloud.google.com/blog/products/ai-machine-learning/three-step-design-pattern-for-specializing-llms?hl=en © - , Y Y 16

https://cloud.google.com/blog/products/ai-machine-learning/three-step-design-pattern-for-specializing-llms?hl=en

17.

なぜドメイン特化 LLMが必要なか（リスク観点から）金融庁が、モデル・リスクを管理するため原則を規定している（も以下原則が適用がなされると解される原則）８原則を規定 • 想定するモデル・リスク管理、特定モデルカテゴリーに限定せず、広範なモデルを対象としている • モデルがリスクをもたらし得る限り、そリスクを管理する必要があると主張参照：金融庁「モデル・リスク管理に関する原則」公表 https://www.fsa.go.jp/access/r3/220.html#topics8 © - , Y Y 17

https://www.fsa.go.jp/access/r3/220.html#topics8

18.

なぜドメイン特化 LLMが必要な原則がにも適用されると解されるくい、使い方が慎重になる（私見）か（リスク観点から）で、金融機関からすると、サードパーティ製モデル開発、承認、モニタリング、検証ベンダー・モデル及び外部リソース • モデル開発・承認 ✔ モデル保し、使用開始前に用 • ベンダーモデル開発プロセスにおいて、モデル ✔ 適切性を確モデル・テストを実施。さらに、使承認プロセスを整備使用中るモデルベンダーモデルが持つリスクも、金融機関リスク管理理・低減する努力が求められる。 • リスク管理についてモデルが意図した通りに機能するかを継続的合に対応する。モデル必要性情報を可能な範囲で収集し、それに基づきリスクを管にモニタリングし、性能低下など問題が発生した場 ✔ リスク管理活用態勢もとで位置づけ、適切に管理する必要がある。 • 継続モニタリング・モデル検証 ✔ どうしても扱いに開発者・オーナー他、リスク管理部門によ ✔ 適切なベンダーおよび製品 ✔ ベンダーから可能な限り詳細な情報提供 ✔ 仮定や限界を把握し、入手可能な情報に基づいて可選定要求能な範囲でモデル検証を行う独立検証について規定 ✔ ベンダーモデルが使用できない場合自社製でもサードパーティ製でも、適切に管理することを当局求めている。金融機関からするとサードパーティ製 LLMを使ってもいいが、 MRM原則観点から依存したくない、やや扱いづらい。 © - , ため代替策を策定する参照：金融庁モデル・リスク管理に関する原則 https://www.fsa.go.jp/news/r3/ginkou/20211112/pdf_02.pdf Y Y 18

https://www.fsa.go.jp/news/r3/ginkou/20211112/pdf_02.pdf

19.

（参考）なぜドメイン特化 LLMが必要なか（リスク観点から）金融庁、モデル管理において3つ３つ防衛線を作ることを提唱防衛線参照：金融庁「モデル・リスク管理に関する原則」公表 https://www.fsa.go.jp/access/r3/220.html#topics8 © - , Y Y 19

https://www.fsa.go.jp/access/r3/220.html#topics8

20.

（参考） MRM原則日本に限らず、世界各国世界中で同じ方向性金融当局同じ方向性モデル・リスク管理出典：EY コンプライアンス関連モデルへ対応を踏まえた、金融機関モデル・リスク管理態勢整備における現実的課題と https://www.ey.com/ja_jp/insights/financial-services/what-would-be-the-real-world-challenges-in-establishing-a-model-risk-management-practice-in-financial-institution 参考：WandB 金融におけるモデルリスク管理と何ですか https://wandb.ai/site/ja/articles/what-is-mrm-in-finance-2 © - , Y Y 20

21.

ドメイン特化 © - , 各手法 Y Y

22.

ドメイン特化方法ある領域に特化して学習したもをドメイン（領域）特化モデルと呼び、特化領域特化手法手法「事実」「形式」学習が得意低コスト複雑さプロンプトエンジニアリング広義で FineTuning Supervised Fine-Tuning ・ InstructionT uning 継続事前学習高様々存在する • モデルに入力するプロンプトを最適化し、領域適応させる手法 • モデル学習が得意重みを変更しないため、低コストで性能改善が見込める • 事前学習済みモデルを特定領域データで微調整する手法（教師あり学習） • 知識学習よりも出力形式ているとされる学習に向い • ベースモデルに対して、特定言語やドメイン知識を追加で学習させる手法。（自己教師あり学習） • 一定 • Catastrophic Forgetting や過学習にフルスクラッチ事前学習 • 言語モデルと情報検索を組み合わせて回答を生成する手法 • 最新情報を反映でき、回答信頼性が高い RAG コストが発生する注意が必要ドメイン特化モデルでよく活用される手法 • 特定言語やドメイン知識も合わせて学習させる手法 • 大量データを学習可能な一方で、莫大なコストが発生する © - , Y Y ※松尾研内資料などをもとに作成 22

23.

ドメイン特化方法ある領域に特化して学習したもをドメイン（領域）特化モデルと呼び、特化領域特化手法手法「事実」「形式」学習が得意低プロンプトエンジニアリング様々存在する • モデルに入力するプロンプトを最適化し、領域適応させる手法 • モデル学習が得意 ay10 重みを変更しないため、低コストで性能改善が見込める ay2 コスト複雑さ広義で FineTuning Supervised Fine-Tuning ・ InstructionT uning 継続事前学習高 • 事前学習済みモデルを特定領域データで微調整する手法（教師あり学習） • 知識学習よりも出力形式ているとされる学習に向い ay5 • ベースモデルに対して、特定言語やドメイン知識を追加で学習させる手法。（自己教師あり学習） • 一定 • Catastrophic Forgetting や過学習にフルスクラッチ事前学習 • 言語モデルと情報検索を組み合わせて回答を生成する手法 • 最新情報を反映でき、回答信頼性が高い RAG コストが発生する注意が必要ドメイン特化モデルでよく活用される手法 • 特定言語やドメイン知識も合わせて学習させる手法 • 大量データを学習可能な一方で、莫大なコストが発生する © - , Y Y ay3,8 23

24.

（参考） LLM LLM カスタマイズ学習およびカスタマイズ手法全体像出典：データアナリティクスラボブログ https://dalab.jp/archives/journal/llm-finetuning-part1/ © - , Y Y 24

https://dalab.jp/archives/journal/llm-finetuning-part1/

25.

プロンプトエンジニアリングについてプロンプトエンジニアリングと、応答を導くために入力プロンプトを体系的に設計・最適化するプロセスを指す。目的にあわせたプロンプトを採用することで欲しい出力を得やすくすることが可能に詳細説明目的基礎正確・明確な指示出し応用 • LLM 汎用性に長けており指示が曖昧だと一般的な情報を出力してしまうため、具体性ある指示出しが必須取 • 「あなた〇〇人です」と役割を付与した上で、具体性ある質問を投げかけることで欲しい出力を得ることが見込まれる手法あるタスク指示出し • 正解例を1個 or 複数個提示した上で指示出しをする手法 • 「Step by Stepで考えてみましょう」という指示を最後につけることで、論理構を示しながら LLMが出力を返してくれる • 一階層深く思考する度に生まれる選択肢を提示しながら指示出しをし、最終的に欲しい出力獲得しに行く手法 • 具体性 • 特定得 One-shot Few-shot • 複雑性 Chain-ofThough • 論理推論タスク指示出し • 網羅的な思考が必要なタスク指示出し Role Tree-ofThought ドメイン Day2参照ある情報取得分野に特化した情報専門家として役割を与える、ドメイン知識をプロンプトに埋め込むという形で、ドメイン特化が可能。プロンプトに与えられるトークン数が増えたことも大きなポイント。参照： [2407.11000] Autonomous Prompt Engineering in Large Language Models © - , Y Y 25

https://arxiv.org/abs/2407.11000

26.

プロンプトエンジニアリングによる AI 社会実装（ PoC）変化従来 o と比べ、生成 o 「高に検証して、効果的なもを本番実装」する形へ。ドメイン特化をプロンプトで行うことも可能。社会実装あり方に大きな変化をもたらした。 AI導入要件定義データ収集・整備従来従来型 PoC 過程特徴モデル選定効果検証・活用モデル学習要件定義から活用まで一気通貫して行うことで効果を発揮場合によってデータ収集からやり直す必要性がある独自モデル構築が優位性に繋がるため、試行錯誤が必要要件定義さえ完了すれ、時間かかるデータ整備や学習をスキップして、プロンプトでモデル活用が可能に生成AI 時代 PoC プロンプト差し替えで随時改善が可能に © - , Y Y • 各ドメインに合わせてデータ整備やデータ基盤構築するため、一定現場負荷、労力・時間が必要 • 課題へアプローチするため、テーマ選定が肝である • 運用開始まで長期間を要するが、有効なテーマに対して独自モデルが構築できると競争優位につながる • 幅広いドメインにおいてデータや学習を最小限にして、現場検証をスタートできるため、省力・高コスパ・安価 • 時間をかけたテーマ選定よりも「多数検証してから絞り込む」方式へ • AI モデル自体による差別化難しく、 ROI を意識した上で、高な検証が肝に 26 26

27.

RAG（Retrieval-Augmented Generation）について大規模言語モデル（LLM）によるテキスト生成に、外部情報検索を組み合わせることで、回答精度を向上させる技術ことをRAGという RAGを用いる強み • 最新情報や、 LLMが学習していない外部 • 検索結果根拠が明らかになり、回答情報を大規模言語モデルから出力結果に反映させることができる信頼性が上昇する詳細 Day2参照関連する情報を検索・取得質問外部情報 (DB) 回答アプリケーションユーザー質問と検索結果を入力テキスト生成 © - , Y Y LLM https://www.nri.com/jp/knowledge/glossary/lst/alphabet/rag 27

https://www.nri.com/jp/knowledge/glossary/lst/alphabet/rag

28.

RAGがもたらした社会実装変化機能に対して特定データを読み込ませることが可能なため、がどんな出力が可能か？でにどんな出力をさせたいか？起点でより広範なユースケースを考えることが可能に。でドメイン知識、プロンプトで指示を与えることで、ドメインに特化したアウトプットが可能。従来 LLMソリューション入力公開された PDF + 一般質問公開コードエラー文 RAGシステム起案後 LLMソリューション入力出力プロンプトエンジニアリングなく、 PDF 出力社内過去文書中身 + 一般社内ルール回答 LLM 実装中コードバグエラー対処プロンプトエンジニアリング社内文書内容社内ルール内容 LLM 過去事例から対処 DB LLMにどんな出力をさせたいか？を起点にユースケースを考えることが可能に LLMがどんな出力が可能か？を起点にユースケースを考えることしか出来なかった参照：Top 7 RAG Use Cases and Applications to Explore in 2024 © - , Y Y 28

https://www.projectpro.io/article/rag-use-cases-and-applications/1059

29.

継続事前学習と継続事前学習と、事前学習済み言語モデルに対して、新しいドメインや言語フルスクラッチ事前学習に比べて一般に、低コストで実施できるデータを学習させていく手法。すべてデータを混ぜて0から学習 ontinued pre-training(継続事前学習)で eta社公開している lamaなどをベースとすることが多い領域固有データみをベースモデルに追加学習するで比較的低コストで開発可能 https://medium.com/@gilinachum/llm-domain-adaptati on-using-continued-pre-training-part-1-3-e3d10fcfdae1 © - , Y Y 29

https://medium.com/@gilinachum/llm-domain-adaptati

30.

継続事前学習における工夫点 ①事前学習をした上で、領域特化ため ②継続事前学習を行う。継続事前学習において扱うか、学習に使うデータ前処理をどように行うか、2つ工夫点が存在する。 https://magazine.sebastianraschka. com/p/tips-for-llm-pretraining-and-e valuating-rms どようなデータを領域固有データ( 2)について2つ工夫点が存在する 1. データ選択：どようなデータを使うか 2. データ処理：領域固有データに対する前処理方法 © - , Y Y 30

https://magazine.sebastianraschka.

31.

データ選択研究（継続事前学習）事前学習モデルをドメイン、タスク特化データセットで継続事前学習をさせること有用性を調査した論文。近いタスク領域データをサンプリングし加えて学習することでモデル性能を向上学習データ分布学習データサンプリング事前学習モデル学習しているデータ(橙) 対象領域データ (青)と一部重複あるが、通常含まれていないデータが多いタスク特化学習に使えるデータが少ないケースもありうる。こ場合、コーパスから、タスクに近いデータをサンプリングしてデータを追加する Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks https://aclanthology.org/2020.acl-main.740.pdf 継続事前学習により対象領域におけるタスク実施性能が向上する © - , Y Y 31

https://aclanthology.org/2020.acl-main.740.pdf

32.

データ処理研究（継続事前学習） 1/2 領域特化学習ためコーパスへ前処理として、生テキストデータを与えるテキスト内容に関する読解力を問う問題形式に加工したデータを加えて学習する生テキストデータを読解力を問う問題形式に加工 https://arxiv.org/abs/2309.09530 ADAPTING LARGE LANGUAGE MODELS TO DOMAINS VIA READING COMPREHENSION(2024) 加工方法 © - , Y Y でなく、前処理により、例(タイトル、要約など) 32

https://arxiv.org/abs/2309.09530

33.

データ処理研究（継続事前学習） 2/2 コーパス前処理を行なった上で、学習を行なった結果、領域特化領域特化知識タスク実行能力が向上することが認められる promptによるタスク実施性能評価対象となる能力 ● ● ● ● ● ● ● ● https://arxiv.org/abs/2309.09530 ADAPTING LARGE LANGUAGE MODELS TO DOMAINS VIA READING COMPREHENSION(2024) © - , Y Y ummarize ord-to- ext ommon eason araphrase ext ompile lose ead omprehension 33

https://arxiv.org/abs/2309.09530

34.

結局ど方法がいい © - , ？（発展話題） Y Y

35.

表層アライメント仮説 (Superficial Alignment Hypothesis) nstruction uningなど目的を絞った教師あり学習で説。（≒知識を入れるに、事前学習が必要）十分にドメイン知識を入れること難しいと主張する仮 ay5 より © - , Y Y 35

36.

知識知識習得 RAGがよい？獲得において、広義ファインチューン（継続事前学習、知識獲得について、 RAG＞継続事前学習） SFT に劣ると主張する論文既存知識活用改善ためとすべき Fine-Tuning or Retrieval? Does Fine-Tuning LLMs on New Knowledge Comparing Knowledge Injection in LLMs Encourage Hallucinations? • SFTで新しい知識を追加すると、既存 • 様々なタスクにおいてRAG 方が継続事前学習よハルシネーション知識に基づかないリスクが増す、学習も困難りも性能がよい • RAGと継続事前学習を組み合わせるよりもRAG単体 • 方が高い性能がでる（さらにRAGだと破滅的忘却もない） https://arxiv.org/pdf/2312.05934 https://arxiv.org/pdf/2405.05904 © - , Y Y 36

37.

知識知識活用 RAGよりも継続事前学習活用において、継続事前学習が方が得意？に勝ると主張する実験知識活用について、継続事前学習＞ RAG 概要 • 医師国家試験においてRAGと継続事前学習性能比較をし、継続事前学習がRAGを上回ることを確認 • 更に継続事前学習とRAGを組み合わせることで大幅な性能向上が見込めることを確認考察 • 知識みを問う問題てRAG目線で • 論理的推論が必要な問題に比べ解きやすい患者症例から診断を行う問題など高度な論理的思考、複数にまたがる知識を要する問題 RAGに負担が大きい https://tech.preferred.jp/ja/blog/llm_knowledge_injection/ © - , Y Y 37

https://tech.preferred.jp/ja/blog/llm_knowledge_injection/

38.

まとめ ● ドメイン特化が必要な理由、得られるベネフィットとリスクという両方観点から ○ ベネフィット観点 ■ ドメイン知識・文脈を理解した高度な出力が可能。ユーザー体験が向上する ○ リスク観点 ■ 当局や企業目線で様々なリスクコントロールが必要。サードパーティ製扱いづらい ● ドメイン特化手法 ○ ドメイン特化について様々な手法がある ■ フルスクラッチ、継続事前学習、 Supervised Fine-Tuning、InstructionTuning ■ 広く捉えると、プロンプトエンジニアリング、 RAGなども一手法と言える ○ これら各手法についても様々研究が進行中だが、以下可能性も？ ■ Supervised Fine-Tuningで知識習得しづらい ■ 知識獲得 RAG＞継続事前学習 ■ 知識活用 RAG＜継続事前学習 © - , Y Y 38

39.

アジェンダ序論 ● LLM 社会実装状況本論 ● ドメイン特化LLM ○ ドメイン特化背景 ○ ドメイン特化各手法 ● 金融特化LLM 進展と活用可能性 ○ 金融特化LLM 進展 ○ 金融特化LLM 評価について ● 金融領域におけるLLM 実活用 © - , Y Y 39

40.

金融特化 LLM © - , 進展 Y Y

41.

金融特化 LLMが必要な背景を領域特化させるメリットに加えて、金融ドメインに固有理由も存在する概要専門用語・知識について正確さとリアルタイム性重要さ • • IPO, M&A, ROE, EBITDA等デリバティブ、スワップ等違い、ニュアン • • • “The crude oil prices are going up” 「企業が10,000人削減を発表」 →これらポジティブ／ネガティブ？金融用語に、複数トークンからなるフレーズが存在する → 意味ない分割が発生 • • • margin cal、break-even analysis 日経225 LIBOR（London Interbank Offered Rate）誤解釈が大きな損失につながる（投資判断など）（使用シーンによって）タイムリーかつ正確な情報が重要である • 投融資判断へが必要 • • • 業界特有略語金融商品専門用語 Web上にない知識・知見がある • 一般的な文脈と金融文脈でス違いがある場合がある • 文脈依存性マルチトークン具体例 • • • 解釈利用際に正確なアウトプット以下などを参考に作成 https://arxiv.org/abs/2406.11903 https://arxiv.org/pdf/2211.00083 © - , Y Y 41

42.

金融特化 LLM開発意義（ BloombergGPTより）を領域特化させたことで、金融ドメインに固有つ効果があることが確認できる領域固有知識例) loomberg vs 汎用知識獲得、領域に特有なタスク実行能力獲得知識問題領域特有タスク実行能力向上回答例) loomberg ● loomberg 向上という二正しい回答をしている BloombergGPT: A Large Language Model for Finance(2023) https://arxiv.org/abs/2303.17564 ● © - , によるクエリ作成 loomberg に、最新株価を取得するためクエリを生成させるこような金融関係タスクに特化させることが可能 Y Y 42

https://arxiv.org/abs/2303.17564

43.

金融特化 LLM ChatGPT以降進化大規模化波が起き、金融特化LLM 2021〜2022年 2019~2020年金融特化LLM 金融特化LLM 黎明期金融分野で LLMに専門用語や文脈理解に限界があり、 FinBERT（2019）という金融特化型モデルが開発された。しかし汎用的な金融 NLPタスクが適用が困難、解釈可能性低さなど課題も残されていた。進化も加発展期金融LLM 多言語対応と専門分析に進化。 Mengzi-BERTや FLANG 登場で精度向上。 FLUE ベンチマーク導入により、金融NLPモデル評価基準についても提唱された。している 2023年〜 2024年〜金融特化LLM 高度化と多様化金融特化LLM 現在地と今後展望金融LLM 、大規模化・オープンソース化・時系列解析・マルチモーダル分析 4つ軸で進化を遂げ、複雑性と精度が飛躍的に向上。金融実務で応用範囲も大きく広がっている。 2023年以降金融 LLM 、進化とともに大規模化やオープンソース化が進行。 2024年以降、データ品質確保や市場変化へ対応など、実用性と信頼性向上が焦点となっている。参照：金融特化型 LLM 進化と最新動向 https://note.com/compassinai/n/n9265d3cf87af © - , Y Y 43

https://note.com/compassinai/n/n9265d3cf87af

44.

A Survey of Large Language Models in Finance (FinLLMs) 金融領域に特化したLLM 出典：https://arxiv.org/abs/2402.02315 、汎用LLM 発展に伴い、林立してきている © - , Y Y 44

https://arxiv.org/abs/2402.02315

45.

FinLLMsで LLMを整理以下ように金融特化出典：https://arxiv.org/abs/2402.02315 © - , Y Y 45

https://arxiv.org/abs/2402.02315

46.

FinBERT-19【Araci, 2019】 ● ● 手法：継続事前学習（0.11 ）特徴：金融感情分析ためにリリースされた最初 in モデル ○ 元となるに対して、金融ドメインコーパスで継続学習、 ○ 金融テキスト感情分析において当時を達成 ○ 今から比べると小さい（0.11 ）金融ニュース文をポジティブ、ネガティブ、ニュートラルに分類するタスク https://arxiv.org/abs/1908.10063 © - を実施金融ニュースヘッドラインやツイートセンチメントスコア（-1から1 連続値）を予測するタスク , Y Y 46

https://arxiv.org/abs/1908.10063

47.

FinBERT-20【Yang et al., 2020】 ● ● 手法： .ドメイン特化事前学習/ファインチューニング（0.11 ）特徴：（当時として）大規模な金融データセットを収集し金融特化モデルを学習 ○ 継続事前学習手法と、フルスクラッチ両手法を試した ■ in - ase ocab：金融データで継続事前学習を行ったも ■ in - in ocab：ゼロから学習（フルスクラッチ）したも ○ フルスクラッチが一番高い性能を示した https://arxiv.org/abs/2006.08097 © - , Y Y 47

https://arxiv.org/abs/2006.08097

48.

FLANG【Shah et al., 2022】 ● ● 手法： .混合ドメイン事前学習/ファインチューニング（0.11 ）特徴：金融ドメインキーワードやフレーズを効率的にマスキングすることで、金融文書における多義的な意味合いを捉えやすくする手法を提唱 ○ 金融ベンチマークタスク「金融言語理解評価（）」を初めて導入 ■ 感情分析（ entiment nalysis）、見出しテキスト分類（ eadline ext lassification）、固有表現認識（ amed ntity ecognition）、構境界検出（ tructure oundary etection）、質問応答（ uestion nswering） ■ 既存金融言語モデル（ in -20など）よりも、高い性能を確認 https://arxiv.org/pdf/2211.00083 © - , Y Y 48

https://arxiv.org/pdf/2211.00083

49.

FLANG【Shah et al., 2022】評価指標 FLUE ● 「金融言語理解評価（）」について説明評価指標 FPB • • FPB Sentiment Classification（Financial Phrase Bank感情分類） FPBデータセットを用いた感情分類タスク。金融ニュースなど文書内フレーズが、ポジティブ、ネガティブ、ニュートラルなど感情カテゴリーに分類 Accuracy FiQA • • FiQA Sentiment Analysis（FiQA感情回帰分析） FiQAデータセットに基づく感情回帰タスク。こタスクで、金融関連実際スコアと誤差を測定 MSE Headline • • Headline Classification（ニュース見出し分類）ニュース見出しを複数カテゴリに分類するタスク。金融ニュースにカテゴリが含まれる NER • • NER（Named Entity Recognition、固有表現認識）金融テキスト内固有名詞を分類するタスクで、会社名、人名、地名などエンティティを識別 F1 FinSBD3 • • FinSBD3（Structure Boundary Detection、構境界検出）金融文書構（見出しやリスト項目境界）を検出するタスク F1 FiQA QA • • FiQA QA（質問応答）金融関連質問に対する適切な回答を予測するタスクテキストから感情スコアを予測し、株価 - , F1 nDCG （Normalized Discounted Cumulative Gain） https://arxiv.org/pdf/2211.00083 © 上下など、株価に関連する Y Y 49

https://arxiv.org/pdf/2211.00083

50.

BloombergGPT【Wu et al., 2023】（2023.3） ● ● 手法： .混合ドメイン事前学習＋プロンプトエンジニアリング（50 ）特徴： loomberg社が開発した、0から事前学習により開発された金融特化 ○ 金融関係知識や、金融特化タスク精度が高く、また汎用的なタスクにも強いことで話題に学習データセット loombergニュースデータも一部学習に利用(0.7%) https://arxiv.org/pdf/2303.17564 © - , Y Y 50

https://arxiv.org/pdf/2303.17564

51.

FinMA (or PIXIU) [Xie et al., 2023] (2023.6) ● ● 手法： .インストラクションチューニング＋プロンプトエンジニアリング（7 , 30 ）特徴： etaがで公開した lamaを金融データでインストラクションチューニングした様々なタスクを実行することができることを示唆 ○ というベンチマークを提唱インストラクション https://arxiv.org/pdf/2306.05443v1 © - , Y Y で金融関連例 51

https://arxiv.org/pdf/2306.05443v1

52.

FinMA (or PIXIU) [Xie et al., 2023] (2023.6) ● ● ● in モデルが、 i - 、 eadlineデータセットで他を大幅に上回り、特定ストラクション・チューニングが性能向上に重要であることが示された複雑な数値推論が必要な質問応答（ in 、 onv in ）で、に軍配一方で、株価動向予測タスクにおいて、 in 、 hat 、 -4を含むすべて分野に特化したインが苦戦金融感情分析ニュース見出し分類固有表現認識質問応答株価動向予測 https://arxiv.org/pdf/2306.05443v1 © - , Y Y 52

https://arxiv.org/pdf/2306.05443v1

53.

FinGPT [Yang et al., 2023a] (2023.8) ● ● 手法： .インストラクションチューニング＋プロンプトエンジニアリング（7 ）特徴：としてアクセス可能な金融特化 ○ o や「株価を利用した強化学習」（）を用いて、既存モデルに軽量な調整を加える ○ データ取得から前処理、学習まで一連パフレームワークが公開されている 4層構アプリレイヤーも充実 https://arxiv.org/abs/2306.06031 © - , Y Y 53

https://arxiv.org/abs/2306.06031

54.

FinGPT [Yang et al., 2023a] (2023.8) 評価結果（ ithub 最新情報） • TFNS: 金融関連ツイートを収集し、詳細にアノテーションされたデータ。センチメント三値分類 • NWGI: News With GPT Instruction (NWGI)データセット。ChatGPT が生成したラベルを使用。 • 最新モデル GPT4以上精度 • 株価がニュースや出来事に対する市場センチメントを反映する、定量的かつ客観的な指標と捉え、強化学習を実施 • フィードバック株価変動 https://github.com/AI4Finance-Foundation/FinGPT?tab=readme-ov-file https://ai4finance-foundation.github.io/FinNLP/ © - , Y Y 54

55.

国内金融ドメイン特化 LLMについて① 比較的小規模であるも、継続事前学習により金融ドメイン特化開発がなされている oney orward ab nekomata-14b-pfn-qfin(2024) 取り組み(2024) • nekomata-14b（モデル）に対して、構築した金融に特化したデータセットによる継続事前学習を実施。 • LLAMA2 7Bをベースとしたもに、継続事前学習と supervised fine-tuning（SFT）を実施 • モデルサイズ14B • モデルサイズ7B • 日本語に特化した金融ベンチマークJapanese Language Model Financial Evaluation Harness において、ベースモデルよりも性能が向上することを確認 • 30 評価用プロンプトを用意し、会計士、簿記資格を持つ現役企業経営コンサルタントがモデル出力を5段階で評価。GPT-3.5を上回る精度を確認英語圏と比べると、まだ研究・開発黎明期。日本語金融データより広範な収集、学習大規模化、様々な手法洗練、などが今後必要か © https://arxiv.org/pdf/2404.10555 https://moneyforward-dev.jp/entry/2024/08/29/124453 - , Y Y 55

56.

国内金融ドメイン特化 LLMについて② lama3-8 をベースとしてモデルマージにより、日本語金融特化進化的モデルマージを用いた日本語金融モデル進化的モデルマージと？構築 • 進化的アルゴリズムを用い、既存英語金融LLMと日本語LLM 重みをパラメータ空間で統合 • 英語金融モデル（finance-Llama3-8B）と日本語LLM （Llama-3-ELYZA-JP-8B）を使用し、Japanese Language Model Financial Evaluation Harnessにて評価 • を構築した事例最適化タスクにおいて、深い金融知識が必要となるタスクを設定することで精度向上を確認 • 多様な能力を持つ幅広いオープンソースモデルを融合（マージ）して新たな基盤モデルを構築するため方法を、進化的アルゴリズムを用いて発見する手法 • Sakana AIが提唱 • https://arxiv.org/pdf/2403.13187 • https://sakana.ai/evolutionary-model-me rge-jp/ https://www.jstage.jst.go.jp/article/jsaisigtwo/2024/FIN-033/ 2024_150/_pdf/-char/ja © - , Y Y 56

57.

金融特化 LLM 今後金融特化 LLM自体開発も進むが、実応用という面でも様々な研究活動が急に進展直接的に利益を産む方向攻め方向性、解釈可能性・倫理観という守り方向性マルチモーダル化解釈可能性（守り） FinVis-GPT (2023) テキストと画像を融合した金融チャート分析を実現。金融チャート解析に特化したマルチモーダル LLMであり、金融データ視覚パターンとテキスト関連性を学習することで、質問応答やトレンド予測などタスクにおいて他モデルよりも優れた性能を発揮。 PloutosGPT (2024) 解釈可能性指標を提案し、モデル決定過程を可視化することで、株価動向予測において解釈可能な意思決定根拠を生成する新たなフレームワーク「Ploutos」を提案。従来予測モデルや他 LLMベース方法と比較して、 Ploutos 予測精度と解釈性において優位性を示した。 https://arxiv.org/pdf/2308.01430 金融市場へ https://arxiv.org/pdf/2403.00782 © - , Y 実適用（攻め） QuantAgent (2024) 二層ループシステムを用いて自己改善を行い、市場変化に動的に適応。高精度な金融シグナルを生成。後金融市場分析やリスク管理における AI 応用範囲が広がる可能性が示唆される。 https://arxiv.org/pdf/2402.03755 Y 57

58.

金融特化 LLM © - 評価について , Y Y

59.

金融LLM ベンチマーク FinBen(2024) – (1/4)評価・検証方法 in en 金融領域ケイパビリティを計24個タスクを36個データセット検証するベンチマークであり、現時点で金融領域適応を計測するに最適なベンチマークである。評価指標評価・検証方法検証タスク情報抽出（IE） • 金融文書内重要なエンティティや関係を特定し、非構を構化されたインサイトに変換可能か評価テキスト分析（TA） • 金融テキスト内容や感情分析を行い、市場動向なるか評価質問応答（QA） • 金融関連テキスト生成（TG） • 一貫した金融テキストを生成する能力を評価リスク管理（RM） • 信用リスク評価、不正行為検出、規制遵守的に評価予測（FO）意思決定（DM）化データ • 金融契約書やSEC申請書からエンティティを抽出。因果関係分類や数値ラベル付けなども実施補助と • 金融テキストから感情や意見を抽出し、価格行動や論点分類などを実施理解 • 複雑な金融クエリに対し数値推論や複数回質問を実施クエリを理解し、応答する能力を評価 • 将来金融動向を予測し、市場応が可能か評価 • 情報量確保などを網羅ダイナミクスに対して戦略的な対多い金融テキスト分析対話形式生成を実施 • 信用スコアリング、不正検出、財務破綻予測などリスクに関連する情報識別・抽出・分析を実施 • 株価動きや市場 • 取引戦略策定や投資ポートフォリオ最適化など、情報に基づい • 取引戦略を実施た金融意思決定を行う能力を評価動向予測を実施策定、ポートフォリオ最適化など意思決定ドメイン知識に根ざして人間が判断していた高度なタスクが追加された参照： 2402.12659 (arxiv.org) © - , Y Y 59

https://arxiv.org/pdf/2402.12659

60.

金融LLM in enで評価方法ベンチマーク FinBen(2024) – (2/4)評価方法以下など評価指標でタスクを網羅的に評価定義評価対象指標 F1スコア • PrecisionとRecall 調和平均 • 情報抽出、テキスト分析、QA、リスク管理 Accuracy • 全て RMSE • 予測値と実際値 AveF1 • 異なるクラスやタスクにおけるF1スコア EntityF1 • 固有表現認識におけるF1スコア EmAcc • モデル ROUGE • 生成されたテキストと参照テキスト BERTScore 予測結果うち、正しく予測されたも間平均 • テキスト分析、予測割合 • テキスト分析誤差 • テキスト分析平均 • 情報抽出総和 • 情報抽出、QA 予測が正解データと完全に一致する割合 • テキスト生成類似性 • BARTモデルを使用し生成されたもと参照テキスト • テキスト生成類似度 MCC • 2値分類における正確さをTP,TN,FP,FNで評価する指標 • リスク管理、予測 SR • 投資においてリスクを取って得られるリターン • 意思決定割合参照： Open FinLLM Leaderboard - a Hugging Face Space by finosfoundation 2402.12659 (arxiv.org) © - , Y Y 60

61.

金融LLM ベンチマーク FinBen(2024) – (3/4)検証結果 4が情報抽出を中心に、全体的な強さを見せる一方で、 eminiも高度な推論を伴うテキスト生成やリスク管理予測タスクで強みを発揮。 ※🟢 T Model Average Average IE Average TA Average QA Average TG Average RM Average FO 検証タスク 🟢 GPT4 39.2 35 64.4 50.7 10 51.7 🟢 LLaMA3.1-70B 36.2 15.7 63.6 14.7 9 🟢 Qwen2-72B 34.7 12.6 59.5 0.3 🟢 Xuanyuan-70B 34.4 9.3 61.4 🟢 LLaMA3.1-8B 34.3 15.6 🟢 Gemini 32.4 🟢 ChatGPT 🟢 事前学習型モデルを指す。 Average DM Sauce 54.3 75.2 Close 0 46 49.3 Open 11 0 53.7 0 Open 0.7 12.5 0 51.7 0 Open 56.2 1.3 10 0 54.3 0 Open 22.1 58.4 20.3 19.5 51.8 53.7 67.2 Close 29.2 26.4 59 39.3 8.5 45.6 52.7 0 Close meta-llama/Llama-2-70b 25.8 10.6 59.9 10.7 12.5 50 49 0 Open 🟢 Duxiaoman-DI/XuanYuan -6B-Chat 25.7 11.1 54.2 3.7 12 50.7 50.3 0 Open 🟢 Qwen/Qwen2-7B-Instruct 22.9 9.9 52.7 0 11 51.6 52.3 0 Open 🟢 Duxiaoman-DI/XuanYu an-6B-Chat 25.7 11.1 54.2 3.7 12 50.7 50.3 0 Open 🟢 internlm/internlm-7b 20.4 12.6 47.3 0 6.5 50.2 54.7 0 Open 参照： Open FinLLM Leaderboard - a Hugging Face Space by finosfoundation © - , Y Y 61

62.

金融LLM ベンチマーク FinBen(2024) – (4/4)考察 70 未満パラメータを持つ小規模なモデルで、トレーディングが困難であることが示唆された。小規模な sが複雑な金融推論や意思決定タスクにおいて活用が難しい可能性がある金融取引における LLMs 評価結果考察 • 株式取引に求められるケイパビリティ ✔ 金融データテキストと時系列マルチモーダルな情報であり、それらを理解・要約し、取引戦略を策定するケイパビリティが要求される • 高性能なLLMモデル ✔ 評価されたLLMs 中で、GPT-4が1を超える SRを達成し、リスク・リターンバランスが最も取れた投資パフォーマンスを示した。 ✔ さらに、最小最大ドローダウンも記録しており他モデルと比較して潜在的な損失を効果的に制限できることを示した。 ✔ オープンソース LLMモデルに限定すると、 LLaMA-70Bが最も低いボラティリティを示したが、最も利益が少ないため、リスク管理と利益トレードオフ関係にあることが分かる。参照： 2402.12659 (arxiv.org) © - , Y Y 62

https://arxiv.org/pdf/2402.12659

63.

金融LLM ベンチマーク日本語特化 (2024) – (1/2)評価・検証方法 apanese language odel inancial evaluation arness 、金融文書や資格試験に関するデータセットを扱う日本語特化ベンチマークである。タスク概要評価・検証方法検証方法 chabsa • 金融文書一種である、有価証券報告書に含まれる文章に関して、 • センチメント分類として、PositiveとNegative 二値分特定単語に対するセンチメントを判定するタスク類を取り評価値としてそれぞれ macro-fi値で評価 Cma basics • 証券アナリスト試験サンプル問題をクローリングにより取得し成型 • 証券アナリスト試験から図を含む問題を削除し選択形式したデータセットで構築された証券分析における基礎知識を問うタスで回答を問わせる方式で正答率を評価ク Cpa audit • 公認会計士試験における短答式試験監査論問題を収録したタス • 6択問題を360問、5択問題を38問取得しマーク式でク回答をさせ正答率を評価 fp2 • 2021年5月から2023年9月過去問題を公式HPより取 • ファイナンシャルプランナー試験2級選択問題を回答させるタスク得し、図問題削除,表マークダウン形式と問題を成型した問題へ回答率を評価 Security sales 1 • 外務員試験1級文字試験や対策問題例をクローリングし、図問題削除など成型をした問題へ回答率を評価 • 証券外務員試験1級に相当する模擬試験タスク参照：金融分野における言語モデル性能評価ため日本語金融ベンチマーク構築継続事前学習による金融ドメイン特化LLM 構築検証 - Preferred Networks Research & Development © - , Y Y 63

64.

金融LLM ベンチマーク日本語特化 (2024) – (2/2)結果・考察 -4シリーズスコアが高く、モデルパラメータ数が増えると性能も高まる可能性が示唆される。また、日本語において上位まだまだクローズ勢が優位である Model openai/gpt-4-32k openai/gpt-4 openai/gpt-4-turbo openai/gpt-35-turbo meta-llama/Llama-2-7 0b-hf meta-llama/Llama-2-7 0b-chat-hf Xwin-LM/Xwin-LM-13 B-V0.2 meta-llama/Llama-2-1 3b-chat-hf elyza/ELYZA-japanes e-Llama-2-7b-fast lmsys/vicuna-13b-v1. 5-16k mosaicml/mpt-30b-ins truct meta-llama/Llama-2-7 b-chat-hf llm-jp/llm-jp-13b-instru ct-full-jaster-v1.0 meta-llama/Llama-2-1 3b-hf Ave. chabsa cma_basics cpa_audit fp2 security_sales_1 source 66.27 93.16 81.58 37.44 50.74 68.42 Close 66.07 93.2 78.95 37.69 50.32 70.18 Close 64.59 89.26 80.96 37.3 50.66 66.67 Close 50.27 89.98 52.63 18.69 29.26 61.4 Close 50.21 90.21 57.89 20 58.09 57.89 Close 49.89 90.39 57.63 20 57.89 57.89 Close 47.53 88.11 52.63 21.11 49.12 49.12 Close 46.86 83.7 39.47 20.85 29.95 50.88 Open 46.04 82.52 44.74 17.84 30.74 54.39 Open 45.87 85.81 52.63 19.6 28.21 42.11 Open 45.18 83.27 42.11 21.36 26.53 52.63 Open 44.86 83.7 39.47 20.85 29.95 50.88 Close 44.77 89.57 39.47 20.15 30.42 50.88 Open 44.19 82.04 36.84 20.85 30.42 50.88 Open 参照：金融分野における言語モデル性能評価ため日本語金融ベンチマーク構築継続事前学習による金融ドメイン特化LLM 構築検証 - Preferred Networks Research & Development © - , Y Y 64

65.

まとめ ● 金融分野で ● 金融特化 LLM 研究・開発状況 ○ ChatGPT以降、金融特化 LLM 開発動きも加 ○ 継続事前学習、ファインチューニングなど様々な手法で開発が行われている ○ 小規模でも金融タスクについて汎用 LLM以上性能を示す事例が多数 ○ 一方で引き続き GPTなど汎用 LLMが強いタスクも存在 ● 金融特化 LLM評価 ○ 金融特化ベンチマーク「 FinBen」が登場 ○ リスク管理、株価予測、情報抽出などといった金融固有に ● 大規模言語モデル（ LLM）技術進展を解説高度なタスク評価についても検証可能日本状況 ○ 日本語金融特化 LLMも開発が徐々に始まっている ○ 日本語金融ベンチマークや日本語金融データセットさらなる整備が課題か © - , Y Y 65

66.

アジェンダ序論 ● LLM 社会実装状況本論 ● ドメイン特化LLM ○ ドメイン特化背景 ○ ドメイン特化各手法 ● 金融特化LLM 進展と活用可能性 ○ 金融特化LLM 進展 ○ 金融特化LLM 評価について ● 金融領域におけるLLM 実活用 © - , Y Y 66

67.

68.

金融業界における生成 AI 最新動向金融業界情報セキュリティに敏感な業界であるが、業務効率化及び個客価値向上に向けた観点から、幅広く活用検討が進んでいる次ページ以降にて具体化外資系金融機関資産管理業務内容投資戦略策定国内銀行保険証券保険商品融資業務株式・債権売買企画・開発決済プラットフォーム構築運用金融リスク管理資産運用リスク管理資産運用 UX向上顧客サービスリスク管理資産運用 M＆Aアドバイザリーセキュリティ強化社内業務特化生成 AI活用例フィンテック LLM活用基盤構築社内業務効率化社内業務効率化生成AI活用基盤構築 AI企業へ大型投資社内文書お問い合わせ対応資産形成音声お問い合わせプラットフォーム作成業務改善 RAG検索ロボアドバイザー文章化＆分析追加機能参照：日経業界地図 2024年版 | 日経BOOKプラス (nikkei.com) © - , Y Y 68

https://bookplus.nikkei.com/atcl/catalog/23/07/14/00907/

69.

（参考）金融業界における生成 AI 最新動向 – (1/4)外資系金融機関モルガン・チェイス銀行社内基盤となる uiteをリリース。資産管理部門生産性向上を目的に、ライティングアシスタンス、アイディア生成、文書要約など金融特化として活用を推進 LLM活用構築基盤機能概要ベネフィットセキュアに生成AI • 活用が可能社内データを GPTに学習させることなく活用可能であり、金融タスクにおいても高い性能を持つことから提出書類下書き生成やアイディアエーション等幅広い業務で活用可能 • LLM活用業務顧客へ提出すべき資産運用レポート、市場分析レポート等下書き • をLLMが生成や、金融記事や海外情報サイト要約や提案アイ現段階でディアディスカッションも可能 • 拡張性担保主にテキスト情報変換を中心とした業務へ活用が進んでいるが、顧客リスク予測・トレーディング自社データ学習をコントロール可能な状態でOpenAI API仕様し等業務へ応用検証を進めることが可能ている参照：LLM(大規模言語モデル )と？生成 AIと違いや活用事例・課題 | DOORS DX JPMorgan Launches AI Assistant for 60,000 Employees © - , Y Y 69

70.

（参考）金融業界における生成 AI 最新動向 – (2/4)国内金融 YZ と共同でオペレーターサポートとなる検索システムを構築。最大でオペレーター回答を60%削減見込みや回答品質画一化等想定効果が存在度お問い合わせ対応RAG検索機能概要ベネフィット RAG環境構築により属人性 • 削減社内文書を参照した上で生成 AIが返す仕組みなため、オペレーターが持つ知識らつきを補填し対応品質を画一化することが可能に。 • これにより、属人性減少によるお問い合わせ対応頑健性が向上が見込まれる。段階的なオペレーター業務 • 顧客からお問い合わせ内容に合わせ、オペレーターが社内に溜 • 現段階でまる関連情報を取得し即座に回答できるシステムを構築自動化、RAG検索を通じ人が即座に高品質な回答を返しているが、オペレーションを回す過程で完全に AIが代替できる箇所が見え段階的にオペレーター業務参照：news0001932.pdf (smbc-card.com) 自動化が可能に © - , Y Y 70

https://www.smbc-card.com/company/news/news0001932.pdf

71.

（参考）金融業界における生成 AI 最新動向 – (3/4)フィンテックメルカリプラットフォーム上で販売を行う人向けに、生成を活用した出品改善システムを構築。社内に溜まった販売ノウハウを提供すると共に、メルカリ・買い手・売り手三方よし状態を実現プラットフォーム追加機能機能ベネフィットプラットフォーム上で • 売買促進生成AIと対話しながら購入されやすい商品説明を生成し、メルカリ上で売買が促進され購入者が増加が見込まれる • メルカリに、「タイトルを改善したら注目されそう」「説明文にXXという要素を加えたら売れそう」「商品メルカリ販売におけるノウハウ改善元値を書いた方が売れやすい」といったノウハウが蓄積されており、それらを基にタイトルや商品説明文章 • 改既に蓄積しているノウハウをベースに改善をしたユー善をAIと対話的に修正していく機能ザー販売情報取得が可能なため、ノウハウ良しあしが定量的に判断できより良いノウハウにするに • カテゴリーごとに参照させるノウハウを切り替えている。どうすれよいかを検証することが可能参照：メルカリ、生成 AI・LLMを活用してお客さま最適な行動を促す「メルカリ AIアシスト」提供を開始 | 株式会社メルカリ (mercari.com) ：メルカリ「生成 AI実装」内幕売れるタイトル提案、成果も計測 | 日経BOOKプラス (nikkei.com) © - , Y Y 71

72.

（参考）金融業界における生成 AI 最新動向 – (4/4)フィンテック ay al 投資子会社である ay al ventures ベンダー asaに対し tep toneグループと共同で3000万ドルを出資。資本関係を結び蜜な連携をすることで業界における競合優位性確立を目指す AI企業へ概要大型投資出資意図業界における競合優優位性 • 国内外スオンラインショッピングで確立決済、ローン、クレジットサービバリューアップに伴い顧客と蜜な会話が必須であり、Rasaが提供する生成AIソリューションと深く連携することで競合優位性を高める方針 • Pay Pal venturesとStep StoneグループがCALMと呼れる独自機能を持つ生成AIソリューションを提供しているRasaに合計3000 万ドルを出資参照：PayPal Ventures Embarks on AI Journey | bobsguide ：Rasa Developer Edition: Revolutionizing LLM-powered Chatbots | The Rasa Blog © - , Y Y 72

73.

LLM導入ガイドライン（ Large Language Models in Finance: A Survey）金融領域に特化したガイドラインを推奨を導入する上で、自社用を開発する大きなコストがかかるため、下図ような zero-shot few-shot / inetune cratch raining Large Language Models in Finance: A Survey © - , Y Y 73

74.

ドメイン特化方法（再掲）ある領域に特化して学習したもをドメイン（領域）特化モデルと呼び、特化領域特化手法手法「事実」「形式」学習が得意低コスト複雑さプロンプトエンジニアリング広義で FineTuning Supervised Fine-Tuning ・ InstructionT uning 継続事前学習高様々存在する • モデルに入力するプロンプトを最適化し、領域適応させる手法 • モデル重みを変更しないため、低コストで性能改善が見込める学習が得意国内で社会実装が進んでいるこっち側 • 事前学習済みモデルを特定領域データで微調整する手法（教師あり学習） • 知識学習よりも出力形式ているとされる学習に向い • ベースモデルに対して、特定言語やドメイン知識を追加で学習させる手法。（自己教師あり学習） • 一定 • Catastrophic Forgetting や過学習にフルスクラッチ事前学習 • 言語モデルと情報検索を組み合わせて回答を生成する手法 • 最新情報を反映でき、回答信頼性が高い RAG コストが発生する注意が必要ドメイン特化モデルでよく活用される手法 • 特定言語やドメイン知識も合わせて学習させる手法 • 大量データを学習可能な一方で、莫大なコストが発生する © - , Y Y ※松尾研内資料などをもとに作成 74

75.

76.

モニタリング LLMという考え方 LLM 活用においてリスクを適切に管理するために、モニタリングする仕組みが必要（モデルリスク管理に沿った考え方）であり、LLM モニタリングを別 LLMで行うという考え方 https://www.lakera.ai/blog/llm-monitoring © - , Y Y 原則 76

https://www.lakera.ai/blog/llm-monitoring

77.

モニタリング LLMという考え方 LLM 活用においてリスクを適切に管理するために、モニタリングする仕組みが必要（モデルリスク管理に沿った考え方）であり、LLM モニタリングを別 LLMで行うという考え方原則求められる要件 • 利用されている LLMと独立してモニタリング ✔ 迎合せずに、評価する力 ✔ 金融実務を考慮した判断が可能なこと ✔ 小さいモデルでより大きなモデルをモニタリングできる力 ✔ 理想的に全 LLM モニタリング可能 • 軽量に安価に運用できること • 実務上利用される LLM 多くが、米国製汎用 LLMであることを考慮する、以下能力も添えたいモニタリングLLM LLM 入出力データを常時モニタリングする別 © - , • LLM Y Y ✔ 十分な日本語能力 ✔ 金融知識、金融領域理解 MRM原則へ対応一助となる考え方 77

78.

（参考） RAG 限界 RAGに技術上・社会実装上限界が見え始めている。概要技術上限界社会実装上限界反復推論機能欠如具体例 • 質問に対して推論を反復しない • 文書自体類似情報検索精度が低いことがある • 検索先データベース検索結果が依存する量や質、また整理方法に • 検索する要素が外部DBに依存しているため、膨大かつ動的に増加するデータやを処理できる検索できる環境を作り続けられる費用が必要解釈可能性と透明性 • RAGモデルにおける検索が生成にどような影響を与えているかについて透明性を示す方法が限られている人間暗黙知追加必要性 • LLM 一部補うことできるが、業界的な背景等、人が暗黙知に理解していて回答に活用している情報明文化されていないことが多く、回答精度が低くなる検索精度限界データ整理必要性拡張性担保で、戦略的な回答が難しい • AがBに与える影響を考えてと指示した場合、まずBを理解するでなくA 情報を持つX個ドキュメントを返すことしか出来ない。 • 人から見たらニュアンス違いである単数形,複数形文を大きな差異であると判断してしまう。 • 文書内画像を読み取ることが出来ない、表を読み取ることが出来ない（一部読み取れるRAGもある） • 社内経理に関するお問い合わせRAGから、営業資料検索、マーケティングスコア検索など社内業務を横断的に検索可能とするケース • 金融や医療領域においてお客様に対し提案をする際、 RAGシステムがど情報に基づきなぜそ提案をしたか全てを知ること不可能 • 業界知識回答を答える際に、暗黙知的な業界などメタ認知ができていない情報参照： A Comprehensive Review of Retrieval-Augmented Generation (RAG): Key Challenges and Future Directions © - , Y Y 78

https://arxiv.org/pdf/2410.12837

79.

（参考） RAG 限界に対する対処法それぞれ限界に対する対処法あるが、コスト(時間や費用)がかかったり、対処療法的な考え方となる LLM 概要技術上限界社会実装上限界反復推論機能欠如多段活用対処療法的な考えコストを見極める必要性解決策 • 質問に対して推論を反復しない • 文書自体 • 検索先データベース索結果が依存する • 検索する要素が外部DBに依存しているため、膨大かつ動的に増加するデータやを処理できる検索できる環境を作り続けられる費用が必要 • 事前にRAG環境が必要かどうか、必要な場合でならROIが合うかを試算解釈可能性と透明性 • RAGモデルにおける検索が生成にどような影響を与えているかについて透明性を示す方法が限られている • RAG あくまで情報を検索するツールとして使い、責任が及ぶ提案意思決定人が行う形で、役割を明確にし責任所存を明らかにする人間暗黙知追加必要性 • LLM 一部補うことできるが、業界的な背景等、人が暗黙知に理解していて回答に活用している情報明文化されていないことが多く、回答精度が低くなる • ヒアリングやディスカッションを通じ暗黙知的な部分を明文化し検索DBに格納検索精度限界データ整理必要性拡張性担保類似情報で、戦略的な回答が難しい • LLM 多段回答を活用し、複雑な質問について論を繰り返し、的確な質問を返せるよう調整 LLMで推 • ドメインや使途によって出力に使うLLMを変える • 質問文をよりLLMによってわかりやすくクエリ拡張検索精度が低いことがある量や質、また整理方法によって検 • 分類やタグ付けによってデータを整理 • 画像や表を文書に整理するど業務ま参照： A Comprehensive Review of Retrieval-Augmented Generation (RAG): Key Challenges and Future Directions © - , Y Y 79

https://arxiv.org/pdf/2410.12837

80.

RAG 改善方法パターンデータ質と精度関連性を示唆。側問題でなく、データに問題があるパターンもある７つ 1. 失敗内容欠落 - ドキュメントに答えがない場合、「答えがない」と答えず、誤った回答を生成する。 2. 上位ランク文書欠落 - 答えを含む文書が上位にランクされず、ユーザーに提供されない。 3. 文脈不足 - 必要な文書が文脈に含まれず、正確な回答が得られない。 4. 抽出失敗 - 文脈内に答えがあっても、 LLMが正しい回答を抽出できない。 5. フォーマット違反 - 指定された形式で回答を求めているが無視される。 6. 具体性不一致 - 回答が一般的すぎるか、逆に過度に詳細すぎる。 7. 引用: Seven Failure Points When Engineering a Retrieval Augmented Generation System © - , Y 不完全な回答 - 必要な情報一部みが回答に含まれる。 Y 80

https://arxiv.org/pdf/2401.05856.pdf

81.

金融領域で RAG 導入精度向上ために、検索パイプライン、プロンプト、モデルなる。金融領域データを用いた検証を行う研究も実施されている。三つコンポーネントに関して工夫が必要に評価用フレームワーク検索パイプライン生成モデルプロンプト現状OpenAIが強い。情報取得精度最適化が重要で、 LLM 、取得情報が欠如していても「助けようとする」傾向がある。リコール向上と取得ノイズ抑制が重要。 https://aclanthology.org/2024.naacl-industry.23.pdf © - , Y Y 81

https://aclanthology.org/2024.naacl-industry.23.pdf

82.

金融機関文書を対象とした RAG開発難しさ金融機関に様々なマニュアル、ルールが存在し、それらが複雑に絡み合う、頻繁に外的、内的要因でアップデートされるという問題がある。文書が一貫しない、不整合が存在する可能性がある点を開発、利用する上で乗り越えるべきハードルとなる複雑な表現 / 専門用語頻繁な更新文書間依存関係関連法令頻繁な更新とそ対応が必要考えられる対応 ● セマンティックサーチだけでなく、固有名詞を考慮した文書検索利用 ● 文書更新工夫、変更時に影響範囲を考慮する機能を用いるなど © - , Y Y ● による回答に、リンク先文書を辿った上でコンテキストに利用する方法、リンク関係整理 82

83.

金融領域で RAG 導入金融機関で導入を進めて行くうえで、既存社内文書整理をすることや、社外で変更にも対応できるような仕組みを用意することが必要。を金融機関で開発する取り組みこ二つが大きなハードルとなっているケースが多い。部署間で同じ規定でもさまざまな表現になってしまっているケースへ対応規定社外で法的な変更などによるアップデート必要性と必要箇所修正社内データ × 部署ごとに多様に異なる形式一貫したデータベース生成AI ● ● ● 記載表現定義仕方仕方仕方 © - , Y Y 83

84.

LLMを活用した運用戦略に関する研究（松尾研事例）松尾研金融チームメンバーによる研究成果を一部紹介先行研究先行研究、四季報センチメントに超過リターンが存在することを報告。特に小型株に着目 (例) 力源ホールディングス (3561 東証プライム) 【下振れ】〜中略〜 → SELLラベルシグナル生成運用戦略上場企業に関するレポートから抽出したテキストをLLMに入力し、三値センチメントラベルを生成 (Buy, Neutral, Sell) 先行研究で報告があった、ネガティブセンチメント小型株における超過リターン存在を確認。これに基づくショート戦略をヘッジとして活用することで、パッシブ運用 (TOPIX) 成績改善を実現 ⇒AIを使って、金融市場に勝ちたい、こうした取り組みに興味があるという方ぜひ一度お話ししましょう！ © - , Y バックテスト結果 TOPIX 戦略変化幅シャープレシオ 0.39 0.51 +0.12 年率リターン※ 9.96% 12.95% +3.0%pt 最大ドローダウン※ 35.3% 27.6% -7.7%pt ※ 年率リスクを 20%に調整した場合 Y 数値 84

85.

まとめ ● 金融分野で大規模言語モデル（ LLM） ● LLM ● ドメイン特化について複数手法が存在 ○ フルスクラッチ、継続事前学習、 Supervised Fine-Tuning、InstructionTuning ○ RAG、プロンプト ● 金融領域における LLM 研究・開発について ○ ChatGPT 登場以降、金融特化 LLM 開発動きも加 ○ 金融に特化した評価指標も研究が進んできている ○ 日本世界から送れる形で、 LLM 開発、評価指標研究が進んでいる ● 金融領域社会実装状況について ○ 日本で現状、クローズ LLM 利活用が中心 ○ RAGで精度が出ない問題、クローズ LLM 限界など問題に直面社会実装本質技術進展、社会実装最新情報を包括的に紹介・解説情報変換であり、二極化が進む（レイヤー上下へ） © - , Y Y 85

86.

Matsuo_lab_LLM_Day11金融パート_vF_講義後編集

Kangsoo Kim

関連スライド

学振特別研究員になるために～2025年度申請版

研究に使える便利なフリーソフト ImageJ

StampFlyで学ぶマルチコプタ制御

大規模言語モデルに追加学習で専門知識を教える試み (2023, arXiv:2312.03360)

ZAZA株式会社_会社紹介

東京大学 3Dスキャン勉強会「フォトグラメトリ」

各ページのテキスト