44.9K Views
December 04, 24
スライド概要
東大松尾研「大規模言語モデル講義2024」Day11の講義で使用した資料です。大規模言語モデルのドメイン特化についてと、金融領域に特化したLLMをテーマにしております。
講義リンク
https://weblab.t.u-tokyo.ac.jp/lecture/course-list/large-language-model/
講師略歴
金 剛洙(きむ かんす)
東京大学工学部卒、同大学院工学系研究科技術経営戦略学専攻修了。2020年より、松尾研究所に参画し、機械学習の社会実装プロジェクトの企画からPoC、開発を一貫して担当。その後、社内外の特命プロジェクトを推進する経営戦略本部を立ち上げ・統括。また、AI・知能化技術の応用により成長の見込めるベンチャー企業への投資に特化したVCファンドを新設し、代表取締役を務める。松尾研究所の参画以前は、シティグループ証券株式会社にて、日本国債・金利デリバティブのトレーディング業務に従事。
東京大学松尾研究室 学術専門職員
株式会社MK Capital 代表取締役社長CEO・マネージングパートナー(VCファンド)
PLUGA AI Asset Management株式会社 執行役員
金融庁 特別研究員
東京大学工学部卒、同大学院工学系研究科技術経営戦略学専攻修了。2020年より、松尾研究所に参画し、機械学習の社会実装プロジェクトの企画からPoC、開発を一貫して担当。その後、社内外の特命プロジェクトを推進する経営戦略本部を立ち上げ・統括。また、AI・知能化技術の応用により成長の見込めるベンチャー企業への投資に特化したVCファンドを新設し、代表取締役を務める。松尾研究所の参画以前は、シティグループ証券株式会社にて、日本国債・金利デリバティブのトレーディング業務に従事。 東京大学松尾研究室 学術専門職員 株式会社MK Capital 代表取締役社長CEO・マネージングパートナー(VCファンド) PLUGA AI Asset Management株式会社 執行役員 金融庁 特別研究員
pplication of ( omain pecific ) 2024/11/6 大規模言語モデル講座 第11回前半パート(金融) 講師:金剛洙(きむかんす) 許諾なく撮影や第三者へ 開示を禁止します © - , Y Y
エグゼクティブサマリー Domain Specific LLM(Day11、前半パート)で学んで欲しいこと • 目的: • ドメイン特化LLMについて理解する • 金融領域におけるLLM 研究・開発 概観を理解する • アカデミック・社会実装 バランスがとれた内容を提供 • 学習項目: • ドメイン特化LLMと 何か、特に汎用LLMと 違い 何かについて • ドメイン特化 各手法について • 金融特化LLM 進展状況とそ 評価方法について • 金融領域におけるLLM 社会実装 状況について © - , Y Y 2
金 剛洙(きむ かんす) 略歴 2014年 東京大学工学部卒業 2017年 同大学院工学系研究科修了 シティグループ証券株式会社 入社 2020年 東京大学大学院工学系研究科 松尾研究室 入職 株式会社松尾研究所 入社 主にAI 社会実装 活動に従事 2022年 株式会社松尾研究所 取締役就任 株式会社MK Capital設立/代表取締役就任 (生成AIに特化したVCファンド、PKSHA Technologyと共同運営) 2023年 金融庁特別研究員 生成AIと金融について研究 X(Twitter) kangsoo_kim_ 研究範囲 主にAI 社会実装 特に金融領域 AI活用 グローバルなAI周り 動向 © - , Y Y 3
アジェンダ 序論 ● LLM 社会実装 状況 本論 ● ドメイン特化LLM ○ ドメイン特化 背景 ○ ドメイン特化 各手法 ● 金融特化LLM 進展と活用可能性 ○ 金融特化LLM 進展 ○ 金融特化LLM 評価について ● 金融領域におけるLLM 実活用 © - , Y Y 4
LLM © 社会実装 - , Y 状況 Y
情報変換器として LLM 「非定型と定型を高 かつ大規模に行き来することができるようになった」という て、必要な文脈を与えることで、人間以上 精度を発揮可能。 INPUT が本質的な変化である。加え OUTPUT 情報変換 • • • 人間 日報、報告書、論文、、、 問い合わせ、 SNS、、、 過去 経験から 事前学習 • 非定型 インプット 問い合わせへ 返答、示唆出し、 PR文章、、、 要約・レポートなど 非定型 アウトプット 大量 データから 事前学習 LLM プログラム ・システム 定型 インプット • • テーブルデータ、数値データ、、、 APIへ インプットなど 定型 アウトプット 人間が設計 組織 あらゆる情報 変換 過程に、 LLMを導入可能。組織 DXが一足飛びに進む可能性がある。 © - , Y Y • • タグ分類、セグメンテーション、 評価値、データ、、、 6
LLM ハイプか?( Gartner社) 出典:Gartner社 https://www.gartner.co.jp/ja/newsroom/press-releases/pr-20240910-genai-hc © - , Y Y 7
Generative AI Map: 「26 投資領域」 「キープレイヤー マクロな見立て」 × 「グローバルスタートアップ200社超 ミクロな探索動向」からAlgo Fund作成 21 Layer2 ×垂直 金融・会計・ 法律・保険・HR 22 23 建築・製 Text/Code Agent システム 24 ゲーム・エンタメ 25 EC・リテール 26 他業界 (ヘルスケア/ 教育 等) Image/Video/3D 化学・バイオ (AI for Science*) Music/Voice 20 自律型Agent 19 Layer2 ×水平 そ 他・既存業務ソフトと 連携(Office類ツールソフト 等) ナレッジ・検索 モデル+ ソフト連携 16 17 営業/販売/CS支援 18 キャラクター/アバター 作成 画像・動画編集 15 クリエイティブデザイン(マーケ・Web・APP) モデル 直利用 10 文章生成 7 Layer0・1 (生成モデル) 4 インフラ 出典:PKSHA Algorithm Fund資料 * AI for Science LLMや画像生成モデル以外 1 11 12 コード生成 画像・動画生成 8 大規模言語モデル (LLM:Large Language Model) モデル 5 カスタマイズ・実装 2 計算設備(専用チップ・端末) 基礎技術を活用することが多いと見られている © - 13 画像生成モデル・3D生成モデル データ管理・トレーニングサポート 計算力(GPU・クラウド・効率化) , 3Dモデル生成 Y Y 6 3 14 音声合成・ 作曲・音楽生成 9 音声生成モデル 総合サイト・コミュニティ データベース(ベクトルDB) 8
Generative AIへ 米国 投資 Map 上下に2分化が続く 新興注目ベンチャー(設立’20年~、5mil USD調達) 「26投資領域」 累計調達金額ベース(mil USD) 件数ベース(件) 既存案件 (~’23/12) 既存案件 前回まで 調達 追加調達 新規増加分 (’24/1~6) 26. 化学・バイオ( AI for Science) 25. 他業界(ヘルスケア /教育等) Layer2 24. EC・リテール ×垂直 23. ゲーム・エンタメ 22. 建築・製 21. 金融・会計・法律・保険・ HR Agent 20. 自律型 Agent システム 19. ナレッジ・検索 モデル 18. 画像・動画編集 + ソフト 17. NPC/アバター 作成 連携 16. 営業 /販売 /CS支援 15. クリエイティブデザイン 14. 音声合成 モデル 13. 3Dモデル生成 直利用 12. 画像生成 11. コード生成 10. 文章生成 09. 音声生成モデル Layer0・1 08. 画像・ 3D生成モデル 07. LLM 06. 総合サイト・コミュニティ 05. データ管理・トレーニングサポート 04. モデルカスタマイズ・実装 インフラ 03. データベース 02. 計算力 01. 計算設備 新規増加分 (’24/1~6) EvolutionaryScale 142 Sierra 110 Layer2×水平 出典:PKSHA Algorithm Fund資料 分布 Augment 252 Cognition 196 Suno 125 Etched 125 合 計: 358(+158) Anthropic 850 X.ai 6,250 Waabi 283 合 計: 27,722(+12,075) 「下=LLM/インフラ」 or 「上=Agent/Vertical」 © - , Y Y 9
新興注目ベンチャー ’24年上半期で 190社・147億USDが増加 新興注目ベンチャー(設立’20年~、5mil USD調達) 「26投資領域」 分布 出典:PKSHA Algorithm Fund資料 © - , Y Y 10
アジェンダ 序論 ● LLM 社会実装 状況 本論 ● ドメイン特化LLM ○ ドメイン特化 背景 ○ ドメイン特化 各手法 ● 金融特化LLM 進展と活用可能性 ○ 金融特化LLM 進展 ○ 金融特化LLM 評価について ● 金融領域におけるLLM 実活用と話題 © - , Y Y 11
ドメイン特化 背景 (なぜドメイン特化が必要か) © - , Y Y
LLM 分類(ビジネス観点、 Enterprise LLM) 企業目線で を導入する際に 大きく分けて三つ選択肢があるが現状 クローズ が優勢。 クローズ に 限界があるが、それ以外 利用について 、計算能力やデータ 確保など、相当なリソー スが必要となるため慎重な検討が必要。 LLM LLM 分類 ● ● 参照 :https://towardsdatascience.com/how-enterprises-can-build-their-own-lar ge-language-model-similar-to-openais-chatgpt-23ff6696c69c https://prtimes.jp/main/html/rd/p/000000085.000024729.html © - ● , Y 利用状況( ITエンジニア実態調査 2024) モデル 利用 上位 クローズ LLMが圧倒的 企業で 利用という観点で 特に Azureベースが多い (ヒアリングベース) 一方でクローズソース 課題も・・・ Y 13
なぜドメイン特化 LLMが必要な か(利点がある) ドメイン特化させることで、各分野特有 要求や複雑さに対応でき、より正確で安全で信頼性が高い回答が可能に なる。またモデル 効率性が上がり、計算コストも下がる。 自社サーバー内に をホストすれ 、安全性に関する様々な懸念も対応可能。 汎用LLM • モデル 制御 • モデル 精度 ドメイン特化 LLMなら 限界・課題 モデル 挙動や応答を細かく制御することが難し い(プロンプトによる制御と、出てきたアウトプット を確認するというやり方) • 汎用にトレーニングされている で、特定 文脈 で 言語理解 深さや精度が、逆に不利になる • 特定タスクに特化したモデルを利用することで、挙動 や応答を制御が可能 自社製 場合より細かい制御も可能 • ドメイン特化により、言語理解 深さや精度が強みに なる 結果的にユーザー体験 向上にも寄与 • プライバシー 懸念 サードパーティ リスク • クラウドにデータを送られるため、情報漏えいリス クやセキュリティ 懸念がつきまとう • 自社サーバーにホストすれ 、情報漏えいリスクや セキュリティ 懸念 減らすことが可能 • プロバイダー サービス変更や価格変動に左右 される • 自社サーバーにホストすれ サードパーティリスク ない (サーバーやGPU 価格変動 リスク あり) • ドメイン 情報・知識・背景(+社内も)を含めて学習していることで、情報変換 精度 が上がる。ビジネスで活用できる範囲が広がる! © - , Y Y 14
(参考)なぜドメイン特化 LLMが必要な か ig ech中心に、各社がドメイン特化 に関して 記事を出しているが、 ドメイン特化 必要性に関する説明 概 同様 内容である 説明 • 専門分野 データを学習させることで、汎用モデルよりも るかに的確で、そ 分野特有 微妙なニュアンス まで理解できる結果を出せる 信頼性 • • 扱う範囲を絞ることで、関係 ない情報に惑わされにくく、安定したアウトプットが期待できる 理想的に ハルシネーションが減る 安全性と責任 • • 医療や法律など 分野で 、間違った情報が深刻な問題を引き起こす可能性がある 特化型LLMに 追加 安全対策を組み込み、より信頼性 高い情報を提供可能 優れたユーザー 体験 • 専門用語や文脈をより深く理解できるモデル 達成できる モデル 効率性 • • 大きな汎用モデルより、小さなモデルを専門分野用にチューニングする方が効率的な場合がある 結果的に、(計算)コストを抑えながら質 高いアウトプットが得られる( ROIが高い) 精度と専門性 ため、利用しているユーザー体験が向上する、高い満足度を 参照:https://cloud.google.com/blog/products/ai-machine-learning/three-step-design-pattern-for-specializing-llms?hl=en © - , Y Y 15
(参考)ドメイン特化 LLM 利点 汎用 多様なタスクを処理できる一方で、ドメイン特化 特定分野 正確で信頼性が高く効率的な出力が可能。 broad な一般知識と deep な専門知識 ギャップを埋めるも とも言える 独自 要件や複雑さに対応し、より 参照:https://cloud.google.com/blog/products/ai-machine-learning/three-step-design-pattern-for-specializing-llms?hl=en © - , Y Y 16
なぜドメイン特化 LLMが必要な か(リスク観点から) 金融庁が、モデル・リスクを管理するため 原則を規定している( も以下 原則が適用がなされると解される 原則) 8原則を規定 • 想定するモデル・リスク管理 、特定 モデルカテゴリーに限定せず、広範 なモデルを対象としている • モデルがリスクをもたらし得る限り、そ リスクを管理する必要があると主張 参照:金融庁 「モデル・リスク管理に関する原則」 公表 https://www.fsa.go.jp/access/r3/220.html#topics8 © - , Y Y 17
なぜドメイン特化 LLMが必要な 原則が にも適用されると解される くい、使い方が慎重になる(私見) か(リスク観点から) で、金融機関からすると、サードパーティ製 モデル開発、承認、モニタリング、検証 ベンダー・モデル及び外部リソース • モデル開発・承認 ✔ モデル 保し、使用開始前に 用 • ベンダーモデル 開発プロセスにおいて、モデル ✔ 適切性を確 モデル・テストを実施。さらに、使 承認プロセスを整備 使用中 るモデル ベンダーモデルが持つリスクも、金融機関 リスク管理 理・低減する努力が求められる。 • リスク管理について モデルが意図した通りに機能するかを継続的 合に対応する。 モデル 必要性 情報を可能な範囲で収集し、それに基づきリスクを管 にモニタリングし、性能低下など 問題が発生した場 ✔ リスク管理 活用 態勢 もとで位置づけ、適切に管理する必要がある。 • 継続モニタリング・モデル検証 ✔ どうしても扱いに 開発者・オーナー 他、リスク管理部門によ ✔ 適切なベンダーおよび製品 ✔ ベンダーから 可能な限り詳細な情報提供 ✔ 仮定や限界を把握し、入手可能な情報に基づいて可 選定 要求 能な範囲でモデル検証を行う 独立検証について規定 ✔ ベンダーモデルが使用できない場合 自社製でもサードパーティ製でも、適切に管理することを当局 求めて いる。金融機関からするとサードパーティ製 LLMを使ってもいいが、 MRM原則 観点から依存 したくない、やや扱いづらい。 © - , ため 代替 策を策定する 参照:金融庁 モデル・リスク管理に関する原則 https://www.fsa.go.jp/news/r3/ginkou/20211112/pdf_02.pdf Y Y 18
(参考)なぜドメイン特化 LLMが必要な か(リスク観点から) 金融庁 、モデル管理において3つ 3つ 防衛線を作ることを提唱 防衛線 参照:金融庁 「モデル・リスク管理に関する原則」 公表 https://www.fsa.go.jp/access/r3/220.html#topics8 © - , Y Y 19
(参考) MRM原則 日本に限らず、世界 各国 世界中で同じ方向性 金融当局 同じ方向性 モデル・リスク管理 出典:EY コンプライアンス関連モデルへ 対応を踏まえた、金融機関 モデル・リスク管理態勢整備における現実的課題と https://www.ey.com/ja_jp/insights/financial-services/what-would-be-the-real-world-challenges-in-establishing-a-model-risk-management-practice-in-financial-institution 参考:WandB 金融におけるモデルリスク管理と 何ですか https://wandb.ai/site/ja/articles/what-is-mrm-in-finance-2 © - , Y Y 20
ドメイン特化 © - , 各手法 Y Y
ドメイン特化 方法 ある領域に特化して学習したも をドメイン(領域)特化モデルと呼び、特化 領域特化 手法 手法 「事実」 「形式」 学習が得意 低 コスト 複雑さ プロンプト エンジニアリング 広義で FineTuning Supervised Fine-Tuning ・ InstructionT uning 継続事前 学習 高 様々存在する • モデルに入力するプロンプトを最適化し、領域適応させる手法 • モデル 学習が得意 重みを変更しないため、低コストで性能改善が見込める • 事前学習済み モデルを特定領域 デー タで微調整する手法(教師あり学習) • 知識 学習よりも出力形式 ているとされる 学習に向い • ベースモデルに対して、特定 言語やドメイン知識を追加で学習させる手法。(自己教師あり学習) • 一定 • Catastrophic Forgetting や過学習に フルスクラッチ 事前学習 • 言語モデルと情報検索を組み合わせて回答を 生成する手法 • 最新 情報を反映でき、回答 信頼性が高い RAG コストが発生する 注意が必要 ドメイン特化モデルで よく活用される手法 • 特定 言語やドメイン知識も合わせて学習させる手法 • 大量 データを学習可能な一方で、莫大なコストが発生する © - , Y Y ※松尾研内資料などをもとに作成 22
ドメイン特化 方法 ある領域に特化して学習したも をドメイン(領域)特化モデルと呼び、特化 領域特化 手法 手法 「事実」 「形式」 学習が得意 低 プロンプト エンジニアリング 様々存在する • モデルに入力するプロンプトを最適化し、領域適応させる手法 • モデル 学習が得意 ay10 重みを変更しないため、低コストで性能改善が見込める ay2 コスト 複雑さ 広義で FineTuning Supervised Fine-Tuning ・ InstructionT uning 継続事前 学習 高 • 事前学習済み モデルを特定領域 デー タで微調整する手法(教師あり学習) • 知識 学習よりも出力形式 ているとされる 学習に向い ay5 • ベースモデルに対して、特定 言語やドメイン知識を追加で学習させる手法。(自己教師あり学習) • 一定 • Catastrophic Forgetting や過学習に フルスクラッチ 事前学習 • 言語モデルと情報検索を組み合わせて回答を 生成する手法 • 最新 情報を反映でき、回答 信頼性が高い RAG コストが発生する 注意が必要 ドメイン特化モデルで よく活用される手法 • 特定 言語やドメイン知識も合わせて学習させる手法 • 大量 データを学習可能な一方で、莫大なコストが発生する © - , Y Y ay3,8 23
(参考) LLM LLM カスタマイズ 学習およびカスタマイズ手法 全体像 出典:データアナリティクスラボ ブログ https://dalab.jp/archives/journal/llm-finetuning-part1/ © - , Y Y 24
プロンプトエンジニアリングについて プロンプトエンジニアリングと 、 応答を導くために入力プロンプトを体系的に設計・最適化するプロセスを指 す。目的にあわせたプロンプトを採用することで欲しい出力を得やすくすることが可能に 詳細 説明 目的 基 礎 正確・明確 な指示出し 応 用 • LLM 汎用性に長けており指示が曖昧だと一般的な情報を出力してし まうため、具体性 ある指示出しが必須 取 • 「あなた 〇〇 人です」と役割を付与した上で、具体性 ある質問を 投げかけることで欲しい出力を得ることが見込まれる手法 あるタスク 指示出し • 正解例を1個 or 複数個提示した上で指示出しをする手法 • 「Step by Stepで考えてみましょう」という指示を最後につけることで、 論理構 を示しながら LLMが出力を返してくれる • 一階層深く思考する度に生まれる選択肢を提示しながら指示出しを し、最終的に欲しい出力獲得しに行く手法 • 具体性 • 特定 得 One-shot Few-shot • 複雑性 Chain-ofThough • 論理推論タスク 指示出し • 網羅的な思考が必要なタスク 指 示出し Role Tree-ofThought ドメイン Day2参照 ある情報 取得 分野に特化した情報 専門家として 役割を与える、ドメイン 知識をプロンプトに埋め込むという形で、ドメイン 特化が可能。プロンプトに与えられるトークン数が増えたことも大きなポイント。 参照: [2407.11000] Autonomous Prompt Engineering in Large Language Models © - , Y Y 25
プロンプトエンジニアリングによる AI 社会実装( PoC) 変化 従来 o と比べ、生成 o 「高 に検証して、効果的なも を本番実装」する形へ。 ドメイン特化をプロンプトで行うことも可能。 社会実装 あり方に大きな変化をもたらした。 AI導入 要件定義 データ 収集・整備 従来 従来型 PoC 過程 特徴 モデル選定 効果検証 ・活用 モデル学習 要件定義から活用まで一気通貫 して行うことで効果を発揮 場合によって データ収集から やり直す必要性がある 独自モデル構築が優位性に 繋がるため、試行錯誤が必要 要件定義さえ完了すれ 、時間 かかるデータ整備や学習をスキップして、 プロンプトでモデル 活用が可能に 生成AI 時代 PoC プロンプト 差し替え で 随時改善が可能に © - , Y Y • 各ドメインに合わせて データ整備やデータ 基盤 構築するため、 一定 現場負荷、労力・時間が必要 • 課題へアプローチするため、 テーマ 選定が肝である • 運用 開始まで長期間を要するが、有効な テーマに対して独自 モデルが構築できる と競争優位につながる • 幅広いドメイン において データや学習を最小限にして、 現場検証をスタートできるため、 省力・高コスパ・安価 • 時間をかけたテーマ選定よりも 「多数検証 してから絞り込む」方式へ • AI モデル自体による差別化 難しく、 ROI を意識した上で、高 な検証が肝に 26 26
RAG(Retrieval-Augmented Generation)について 大規模言語モデル(LLM)によるテキスト生成に、外部情報 検索を組み合わせることで、回答精度を向上させる 技術 ことをRAGという RAGを用いる強 み • 最新 情報や、 LLMが学習していない外部 • 検索結果 根拠が明らか になり、回答 情報 を大規模言語モデルから出力結果に反映させることができる 信頼性が上昇する 詳細 Day2参照 関連する 情報を検索・ 取得 質問 外部情報 (DB) 回答 アプリケー ション ユーザー 質問と検索結 果を入力 テキスト生成 © - , Y Y LLM https://www.nri.com/jp/knowledge/glossary/lst/alphabet/rag 27
RAGがもたらした社会実装 変化 機能 に対して特定 データを読み込ませることが可能なため、 がどんな出力が可能か?で にどんな出力をさせたいか?起点でより広範なユースケースを考えることが可能に。 でドメイン 知識、プロンプトで指示を与えることで、ドメインに特化したアウトプットが可能。 従来 LLMソリューション 入力 公開された PDF + 一般 質問 公開コード エラー文 RAGシステム起案後 LLMソリューション 入力 出力 プ ロ ン プ ト エ ン ジ ニ ア リ ン グ なく、 PDF 出力 社内 過去文書 中身 + 一般 社内ルール 回答 LLM 実装中 コードバグ エラー 対処 プ ロ ン プ ト エ ン ジ ニ ア リ ン グ 社内文書 内容 社内ルール 内容 LLM 過去事例 から 対処 DB LLMにどんな出力をさせたいか? を起点にユースケースを考えることが可能に LLMがどんな出力が可能か? を起点にユースケースを考えることしか出来なかった 参照:Top 7 RAG Use Cases and Applications to Explore in 2024 © - , Y Y 28
継続事前学習と 継続事前学習と 、事前学習済み 言語モデルに対して、新しいドメインや言語 フルスクラッチ 事前学習に比べて一般に、低コストで実施できる データを学習させていく手法。 すべて データを 混ぜて0から学習 ontinued pre-training(継続事前学習)で eta社 公開している lamaなど を ベースとすることが多い 領域固有データ みをベースモデルに追加学 習する で比較的低コストで開発可能 https://medium.com/@gilinachum/llm-domain-adaptati on-using-continued-pre-training-part-1-3-e3d10fcfdae1 © - , Y Y 29
継続事前学習における工夫点 ①事前学習をした上で、領域特化 ため ②継続事前学習を行う。継続事前学習において 扱うか、学習に使うデータ 前処理をど ように行うか、2つ 工夫点が存在する。 https://magazine.sebastianraschka. com/p/tips-for-llm-pretraining-and-e valuating-rms ど ようなデータを 領域固有データ( 2)について2つ 工夫点が存在する 1. データ選択:ど ようなデータを使うか 2. データ処理:領域固有データに対する前処理 方法 © - , Y Y 30
データ選択 研究(継続事前学習) 事前学習モデルをドメイン、タスク特化 データセットで継続事前学習をさせること 有用性を調査した論文。近い タスク領域 データをサンプリングし加えて学習することでモデル 性能を向上 学習データ 分布 学習データサンプリング 事前学習モデル 学習しているデータ(橙) 対象領域 データ (青)と一部 重複 あるが、通常 含まれていないデータが多い タスク特化 学習に使えるデータが少ないケースもありうる。こ 場合、コーパスから、タスクに近いデータをサンプリングしてデータ を追加する Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks https://aclanthology.org/2020.acl-main.740.pdf 継続事前学習により対象領域におけるタスク 実施性能が向上する © - , Y Y 31
データ処理 研究(継続事前学習) 1/2 領域特化 学習 ため コーパスへ 前処理として、生 テキストデータを与える テキスト 内容に関する読解力を問う問題 形式に加工したデータを加えて学習する 生 テキストデータを読解力を問う 問題 形式に加工 https://arxiv.org/abs/2309.09530 ADAPTING LARGE LANGUAGE MODELS TO DOMAINS VIA READING COMPREHENSION(2024) 加工方法 © - , Y Y で なく、前処理により、 例(タイトル、要約など) 32
データ処理 研究(継続事前学習) 2/2 コーパス 前処理を行なった上で、学習を行なった結果、領域特化 領域特化 知識 タスク実行能力が向上することが認められる promptによるタスク実施性能 評価対象となる能力 ● ● ● ● ● ● ● ● https://arxiv.org/abs/2309.09530 ADAPTING LARGE LANGUAGE MODELS TO DOMAINS VIA READING COMPREHENSION(2024) © - , Y Y ummarize ord-to- ext ommon eason araphrase ext ompile lose ead omprehension 33
結局ど 方法がいい © - , ?(発展話題) Y Y
表層アライメント仮説 (Superficial Alignment Hypothesis) nstruction uningなど 目的を絞った教師あり学習で 説。(≒知識を入れるに 、事前学習が必要) 十分にドメイン 知識を入れること 難しいと主張する仮 ay5 より © - , Y Y 35
知識 知識 習得 RAGがよい? 獲得において、広義 ファインチューン(継続事前学習、 知識獲得について、 RAG>継続事前学習 ) SFT に劣ると主張する論文 既存知識 活用改善 ためとすべき Fine-Tuning or Retrieval? Does Fine-Tuning LLMs on New Knowledge Comparing Knowledge Injection in LLMs Encourage Hallucinations? • SFTで新しい知識を追加すると、既存 • 様々なタスクにおいてRAG 方が継続事前学習よ ハルシネーション 知識に基づかない リスクが増す、学習も困難 りも性能がよい • RAGと継続事前学習を組み合わせるよりもRAG単 体 • 方が高い性能がでる (さらにRAGだと破滅的忘却もない) https://arxiv.org/pdf/2312.05934 https://arxiv.org/pdf/2405.05904 © - , Y Y 36
知識 知識 活用 RAGよりも継続事前学習 活用において、継続事前学習が 方が得意? に勝ると主張する 実験 知識活用について、継続事前学習> RAG 概要 • 医師国家試験においてRAGと継続事前学習 性能 比 較をし、継続事前学習がRAGを上回ることを確認 • 更に継続事前学習とRAGを組み合わせることで大幅な性 能向上が見込めることを確認 考察 • 知識 みを問う問題 てRAG目線で • 論理的推論が必要な問題に比べ 解きやすい 患者 症例から診断を行う問題など高度な論理的思考、 複数にまたがる知識を要する問題 RAGに 負担が大 きい https://tech.preferred.jp/ja/blog/llm_knowledge_injection/ © - , Y Y 37
まとめ ● ドメイン特化が必要な理由 、得られるベネフィットとリスクという両方 観点から ○ ベネフィット観点 ■ ドメイン 知識・文脈を理解した高度な出力が可能。 ユーザー体験が向上する ○ リスク観点 ■ 当局や企業目線で 様々なリスク コントロール が必要。サードパーティ製 扱いづらい ● ドメイン特化 手法 ○ ドメイン特化について 様々な手法がある ■ フルスクラッチ、継続事前学習、 Supervised Fine-Tuning、InstructionTuning ■ 広く捉えると、プロンプトエンジニアリング、 RAGなども一手法と言える ○ これら 各手法についても様々研究が進行中だが、以下 可能性も? ■ Supervised Fine-Tuningで 知識 習得しづらい ■ 知識獲得 RAG>継続事前学習 ■ 知識活用 RAG<継続事前学習 © - , Y Y 38
アジェンダ 序論 ● LLM 社会実装 状況 本論 ● ドメイン特化LLM ○ ドメイン特化 背景 ○ ドメイン特化 各手法 ● 金融特化LLM 進展と活用可能性 ○ 金融特化LLM 進展 ○ 金融特化LLM 評価について ● 金融領域におけるLLM 実活用 © - , Y Y 39
金融特化 LLM © - , 進展 Y Y
金融特化 LLMが必要な背景 を領域特化させるメリットに加えて、金融ドメインに固有 理由も存在する 概要 専門用語・ 知識について 正確さと リアルタイム性 重要さ • • IPO, M&A, ROE, EBITDA等 デリバティブ、スワップ等 違い、ニュアン • • • “The crude oil prices are going up” 「企業が10,000人 削減を発表」 →これら ポジティブ/ネガティブ? 金融用語に 、複数トークンからなるフレーズが存在 する → 意味 ない分割が発生 • • • margin cal、break-even analysis 日経225 LIBOR(London Interbank Offered Rate) 誤解釈が大きな損失につながる(投資判断など) (使用シーンによって )タイムリーかつ正確な情報 が重要である • 投融資 判断へ が必要 • • • 業界特有 略語 金融商品 専門用語 Web上にない知識・知見がある • 一般的な文脈と金融文脈で ス 違いがある場合がある • 文脈依存性 マルチ トークン 具体例 • • • 解釈 利用 際に 正確なアウトプット 以下などを参考に作成 https://arxiv.org/abs/2406.11903 https://arxiv.org/pdf/2211.00083 © - , Y Y 41
金融特化 LLM開発 意義 ( BloombergGPTより) を領域特化させたことで、金融ドメインに固有 つ 効果があることが確認できる 領域固有知識 例) loomberg vs 汎用 知識 獲得、領域に特有なタスク 実行能力 獲得 知識問題 領域特有タスク 実行能力向上 回答 例) loomberg ● loomberg 向上という二 正しい回答をしている BloombergGPT: A Large Language Model for Finance(2023) https://arxiv.org/abs/2303.17564 ● © - , によるクエリ作成 loomberg に、最新 株価を取得するため クエ リを生成させる こ ような金融関係 タスクに特化させることが可能 Y Y 42
金融特化 LLM ChatGPT以降 進化 大規模化 波が起き、金融特化LLM 2021〜2022年 2019~2020年 金融特化LLM 金融特化LLM 黎明期 金融分野で LLMに 専門用 語や文脈理解に限界があり、 FinBERT(2019)という金融特 化型モデルが開発された。しか し汎用的な金融 NLPタスクが適 用が困難、解釈可能性 低さ など 課題も残されていた。 進化も加 発展期 金融LLM 多言語対応と専門 分析に進化。 Mengzi-BERTや FLANG 登場で精度向上。 FLUE ベンチマーク 導入に より、金融NLPモデル 評価基 準についても提唱された。 している 2023年〜 2024年〜 金融特化LLM 高度化と 多様化 金融特化LLM 現在地と 今後 展望 金融LLM 、大規模化・オープ ンソース化・時系列解析・マル チモーダル分析 4つ 軸で進 化を遂げ、複雑性と精度が飛 躍的に向上。金融実務で 応 用範囲も大きく広がっている。 2023年以降 金融 LLM 、進 化とともに大規模化やオープン ソース化が進行。 2024年以降 、データ品質確 保や市場変化へ 対応など、 実用性と信頼性向上が焦点と なっている。 参照:金融特化型 LLM 進化と最新動向 https://note.com/compassinai/n/n9265d3cf87af © - , Y Y 43
A Survey of Large Language Models in Finance (FinLLMs) 金融領域に特化したLLM 出典:https://arxiv.org/abs/2402.02315 、汎用LLM 発展に伴い、林立してきている © - , Y Y 44
FinLLMsで LLMを整理 以下 ように金融特化 出典:https://arxiv.org/abs/2402.02315 © - , Y Y 45
FinBERT-19【Araci, 2019】 ● ● 手法:継続事前学習(0.11 ) 特徴:金融感情分析 ためにリリースされた最初 in モデル ○ 元となる に対して、金融ドメイン コーパスで 継続学習、 ○ 金融テキスト 感情分析において当時 を達成 ○ 今 から比べると小さい(0.11 ) 金融ニュース 文をポジティブ、ネガティブ、 ニュートラルに分類するタスク https://arxiv.org/abs/1908.10063 © - を実施 金融ニュースヘッドラインやツイート センチ メントスコア(-1から1 連続値)を予測するタ スク , Y Y 46
FinBERT-20【Yang et al., 2020】 ● ● 手法: .ドメイン特化 事前学習/ファインチューニング(0.11 ) 特徴:(当時として )大規模な金融データセットを収集し金融特化 モデルを学習 ○ 継続事前学習 手法と、フルスクラッチ 両手法を試した ■ in - ase ocab:金融データで 継続事前学習を行ったも ■ in - in ocab:ゼロから学習(フルスクラッチ)したも ○ フルスクラッチが一番高い性能を示した https://arxiv.org/abs/2006.08097 © - , Y Y 47
FLANG【Shah et al., 2022】 ● ● 手法: .混合ドメイン 事前学習/ファインチューニング(0.11 ) 特徴:金融ドメイン キーワードやフレーズを効率的にマスキングすることで、金融文書における多義 的な 意味合いを捉えやすくする手法を提唱 ○ 金融 ベンチマークタスク「金融言語理解評価( )」を初めて導入 ■ 感情分析( entiment nalysis)、見出し テキスト分類( eadline ext lassification)、固有表現認識 ( amed ntity ecognition)、構 境界検出( tructure oundary etection)、質問応答( uestion nswering) ■ 既存 金融言語モデル( in -20など)よりも、高い性能を確認 https://arxiv.org/pdf/2211.00083 © - , Y Y 48
FLANG【Shah et al., 2022】 評価指標 FLUE ● 「金融言語理解評価( )」について 説明 評価指標 FPB • • FPB Sentiment Classification(Financial Phrase Bank感情分類) FPBデータセットを用いた感情分類タスク。金融ニュースなど 文書内 フレーズが、ポジティブ、ネガティ ブ、ニュートラルなど 感情カテゴリーに分類 Accuracy FiQA • • FiQA Sentiment Analysis(FiQA感情回帰分析) FiQAデータセットに基づく感情回帰タスク。こ タスクで 、金融関連 実際 スコアと 誤差を測定 MSE Headline • • Headline Classification(ニュース見出し分類) ニュース見出しを複数 カテゴリに分類するタスク。金融ニュースに カテゴリが含まれる NER • • NER(Named Entity Recognition、固有表現認識) 金融テキスト内 固有名詞を分類するタスクで、会社名、人名、地名など エンティティを識別 F1 FinSBD3 • • FinSBD3(Structure Boundary Detection、構 境界検出) 金融文書 構 (見出しやリスト項目 境界)を検出するタスク F1 FiQA QA • • FiQA QA(質問応答) 金融関連 質問に対する適切な回答を予測するタスク テキストから感情スコアを予測し、 株価 - , F1 nDCG (Normalized Discounted Cumulative Gain) https://arxiv.org/pdf/2211.00083 © 上下など、株価に関連する Y Y 49
BloombergGPT【Wu et al., 2023】 (2023.3) ● ● 手法: .混合ドメイン事前学習 + プロンプトエンジニアリング(50 ) 特徴: loomberg社が開発した、0から事前学習により開発された金融特化 ○ 金融関係知識や、金融特化タスク 精度が高く、また汎用的なタスクにも強いことで話題に 学習データセット loombergニュー ス データも一部 学習に利用(0.7%) https://arxiv.org/pdf/2303.17564 © - , Y Y 50
FinMA (or PIXIU) [Xie et al., 2023] (2023.6) ● ● 手法: .インストラクションチューニング + プロンプトエンジニアリング(7 , 30 ) 特徴: etaが で公開した lamaを金融データでインストラクションチューニングした 様々なタスクを実行することができることを示唆 ○ というベンチマークを提唱 インストラクション https://arxiv.org/pdf/2306.05443v1 © - , Y Y で金融 関連 例 51
FinMA (or PIXIU) [Xie et al., 2023] (2023.6) ● ● ● in モデルが 、 i - 、 eadlineデータセットで他 を大幅に上回り、特定 ストラクション・チューニングが 性能向上に重要であることが示された 複雑な数値推論が必要な質問応答( in 、 onv in )で 、 に軍配 一方で、株価動向予測 タスクにおいて 、 in 、 hat 、 -4を含むすべて 分野に特化したイン が苦戦 金融感情分析 ニュース見出し分類 固有表現認識 質問応答 株価動向予測 https://arxiv.org/pdf/2306.05443v1 © - , Y Y 52
FinGPT [Yang et al., 2023a] (2023.8) ● ● 手法: .インストラクションチューニング + プロンプトエンジニアリング(7 ) 特徴: としてアクセス可能な金融特化 ○ o や「株価を利用した強化学習」( )を用いて、既存 モデルに軽量な調整を加える ○ データ取得から前処理、学習まで 一連パフレームワークが公開されている 4層 構 アプリレイヤーも充実 https://arxiv.org/abs/2306.06031 © - , Y Y 53
FinGPT [Yang et al., 2023a] (2023.8) 評価結果( ithub 最新情報) • TFNS: 金融関連 ツイートを収集し、詳細にアノテーションされたデー タ。センチメント 三値分類 • NWGI: News With GPT Instruction (NWGI)データセット。ChatGPT が生成したラベルを使用。 • 最新モデル GPT4以上 精度 • 株価がニュースや出来事に対する市場 セ ンチメントを反映する、定量的かつ客観的な 指標と捉え、強化学習を実施 • フィードバック 株価 変動 https://github.com/AI4Finance-Foundation/FinGPT?tab=readme-ov-file https://ai4finance-foundation.github.io/FinNLP/ © - , Y Y 54
国内 金融ドメイン特化 LLMについて① 比較的小規模で あるも 、継続事前学習により金融ドメイン特化 開発がなされている oney orward ab nekomata-14b-pfn-qfin(2024) 取り組み(2024) • nekomata-14b(モデル)に対して、構築した金融に 特化したデータセットによる継続事前学習を実施。 • LLAMA2 7Bをベースとしたも に、継続事前学習と supervised fine-tuning(SFT)を実施 • モデルサイズ14B • モデルサイズ7B • 日本語に特化した金融ベンチマークJapanese Language Model Financial Evaluation Harness において、ベースモデルよりも性能が向上すること を確認 • 30 評価用プロンプトを用意し、会計士、簿記 資格 を持つ現役 企業経営コンサルタントがモデル 出力 を5段階で評価。GPT-3.5を上回る精度を確認 英語圏と比べると、まだ研究・開発 黎明期。 日本語金融データ より広範な収集、学習 大規模 化、様々な手法 洗練、などが今後必要か © https://arxiv.org/pdf/2404.10555 https://moneyforward-dev.jp/entry/2024/08/29/124453 - , Y Y 55
国内 金融ドメイン特化 LLMについて② lama3-8 をベースとしてモデル マージにより、日本語金融特化 進化的モデルマージを用いた日本語金融 モデル 進化的モデルマージと ? 構築 • 進化的アルゴリズムを用い、既存 英語金融LLMと日本語LLM 重みをパラメータ空間で統合 • 英語金融モデル(finance-Llama3-8B)と日本語LLM (Llama-3-ELYZA-JP-8B)を使用し、Japanese Language Model Financial Evaluation Harnessにて評価 • を構築した事例 最適化タスクにおいて、深い金融知識が必要となるタスクを設定 することで精度向上を確認 • 多様な能力を持つ幅広いオープンソースモ デルを融合(マージ)して新たな基盤モデル を構築するため 方法を、進化的アルゴリ ズムを用いて発見する手法 • Sakana AIが提唱 • https://arxiv.org/pdf/2403.13187 • https://sakana.ai/evolutionary-model-me rge-jp/ https://www.jstage.jst.go.jp/article/jsaisigtwo/2024/FIN-033/ 2024_150/_pdf/-char/ja © - , Y Y 56
金融特化 LLM 今後 金融特化 LLM自体 開発も進むが、実応用という面でも様々な研究活動が急 に進展 直接的に利益を産む方向 攻め 方向性、解釈可能性・倫理観という守り 方向性 マルチモーダル化 解釈可能性(守り) FinVis-GPT (2023) テキストと画像を融合 した金融チャート分析を実現。金融チャート 解析に特化したマルチモーダル LLMであり、 金融データ 視覚パターンとテキスト 関連 性を学習することで、質問応答やトレンド予 測など タスクにおいて他 モデルよりも優 れた性能を発揮。 PloutosGPT (2024) 解釈可能性指標を提 案し、モデル 決定過程を可視化すること で、株価動向予測において解釈可能な意思 決定根拠を生成する新たなフレームワーク 「Ploutos」を提案。 従来 予測モデルや他 LLMベース 方 法と比較して、 Ploutos 予測精度と解釈性 において優位性を示した。 https://arxiv.org/pdf/2308.01430 金融市場へ https://arxiv.org/pdf/2403.00782 © - , Y 実適用(攻め) QuantAgent (2024) 二層 ループシステ ムを用いて自己改善を行い、市場変化に動 的に適応。高精度な金融シグナルを生成。 後 金融市場分析やリスク管理における AI 応用範囲が広がる可能性が示唆される。 https://arxiv.org/pdf/2402.03755 Y 57
金融特化 LLM © - 評価について , Y Y
金融LLM ベンチマーク FinBen(2024) – (1/4)評価・検証方法 in en 金融領域 ケイパビリティを計24個 タスクを36個 データセット検証するベンチマークであり、現時点で 金融領域 適応を計測するに 最適なベンチマークである。 評価指標 評 価・ 検 証 方 法 検証タスク 情報抽出 (IE) • 金融文書内 重要なエンティティや関係を特定し、非構 を構 化されたインサイトに変換可能か評価 テキスト分析 (TA) • 金融テキスト 内容や感情分析を行い、市場動向 なるか評価 質問応答 (QA) • 金融関連 テキスト生成 (TG) • 一貫した金融テキストを生成する能力を評価 リスク管理 (RM) • 信用リスク 評価、不正行為 検出、規制遵守 的に評価 予測 (FO) 意思決定 (DM) 化データ • 金融契約書やSEC申請書からエンティティを抽出。因果 関係 分類や数値ラベル付けなども実施 補助と • 金融テキストから感情や意見を抽出し、価格行動 や論点分類などを実施 理解 • 複雑な金融クエリに対し数値推論や複数回 質問を実施 クエリを理解し、応答する能力を評価 • 将来 金融動向を予測し、市場 応が可能か評価 • 情報量 確保などを網羅 ダイナミクスに対して戦略的な対 多い金融テキスト 分析 対話形式 生成を実施 • 信用スコアリング、不正検出、財務破綻予測など リスク に関連する情報 識別・抽出・分析を実施 • 株価 動きや市場 • 取引戦略 策定や投資ポートフォリオ 最適化など、情報に基づい • 取引戦略 を実施 た金融意思決定を行う能力を評価 動向 予測を実施 策定、ポートフォリオ最適化など 意思決定 ドメイン知識に根ざして人間が判断してい た高度なタスクが追加された 参照: 2402.12659 (arxiv.org) © - , Y Y 59
金融LLM in enで 評 価 方 法 ベンチマーク FinBen(2024) – (2/4)評価方法 以下など 評価指標でタスクを網羅的に評価 定義 評価対象指標 F1スコア • PrecisionとRecall 調和平均 • 情報抽出、テキスト分析、QA、リスク管理 Accuracy • 全て RMSE • 予測値と実際 値 AveF1 • 異なるクラスやタスクにおけるF1スコア EntityF1 • 固有表現認識におけるF1スコア EmAcc • モデル ROUGE • 生成されたテキストと参照テキスト BERTScore 予測結果 うち、正しく予測されたも 間 平均 • テキスト分析、予測 割合 • テキスト分析 誤差 • テキスト分析 平均 • 情報抽出 総和 • 情報抽出、QA 予測が正解データと完全に一致する割合 • テキスト生成 類似性 • BARTモデルを使用し生成されたも と参照テキスト • テキスト生成 類似度 MCC • 2値分類における正確さをTP,TN,FP,FNで評価する指標 • リスク管理、予測 SR • 投資においてリスクを取って得られるリターン • 意思決定 割合 参照: Open FinLLM Leaderboard - a Hugging Face Space by finosfoundation 2402.12659 (arxiv.org) © - , Y Y 60
金融LLM ベンチマーク FinBen(2024) – (3/4)検証結果 4が情報抽出を中心に、全体的な強さを見せる一方で、 eminiも高度な推論を伴うテキスト生成やリスク管理 予測タスクで強みを発揮。 ※🟢 T Model Average Average IE Average TA Average QA Average TG Average RM Average FO 検証タスク 🟢 GPT4 39.2 35 64.4 50.7 10 51.7 🟢 LLaMA3.1-70B 36.2 15.7 63.6 14.7 9 🟢 Qwen2-72B 34.7 12.6 59.5 0.3 🟢 Xuanyuan-70B 34.4 9.3 61.4 🟢 LLaMA3.1-8B 34.3 15.6 🟢 Gemini 32.4 🟢 ChatGPT 🟢 事前学習型モデルを指す。 Average DM Sauce 54.3 75.2 Close 0 46 49.3 Open 11 0 53.7 0 Open 0.7 12.5 0 51.7 0 Open 56.2 1.3 10 0 54.3 0 Open 22.1 58.4 20.3 19.5 51.8 53.7 67.2 Close 29.2 26.4 59 39.3 8.5 45.6 52.7 0 Close meta-llama/Llama-2-70b 25.8 10.6 59.9 10.7 12.5 50 49 0 Open 🟢 Duxiaoman-DI/XuanYuan -6B-Chat 25.7 11.1 54.2 3.7 12 50.7 50.3 0 Open 🟢 Qwen/Qwen2-7B-Instruct 22.9 9.9 52.7 0 11 51.6 52.3 0 Open 🟢 Duxiaoman-DI/XuanYu an-6B-Chat 25.7 11.1 54.2 3.7 12 50.7 50.3 0 Open 🟢 internlm/internlm-7b 20.4 12.6 47.3 0 6.5 50.2 54.7 0 Open 参照: Open FinLLM Leaderboard - a Hugging Face Space by finosfoundation © - , Y Y 61
金融LLM ベンチマーク FinBen(2024) – (4/4)考察 70 未満 パラメータを持つ小規模なモデルで 、トレーディングが困難であることが示唆された。 小規模な sが複雑な金融推論や意思決定タスクにおいて 活用が難しい可能性がある 金融取引における LLMs 評価結果 考察 • 株式取引に求められるケイパビリティ ✔ 金融データ テキストと時系列 マルチモーダルな情報であり、 それらを理解・要約し 、取引戦略を策定するケイパビリティが要求 される • 高性能なLLMモデル ✔ 評価されたLLMs 中で 、GPT-4が1を超える SRを達成し、リス ク・リターン バランスが最も取れた投資パフォーマンス を示し た。 ✔ さらに、最小 最大ドローダウンも記録しており他 モデルと比較 して潜在的な損失を効果的に制限できることを示した。 ✔ オープンソース LLMモデルに限定すると、 LLaMA-70Bが最も低い ボラティリティを示したが、最も利益が少ないため、リスク管理と利 益 トレードオフ関係にあることが分かる。 参照: 2402.12659 (arxiv.org) © - , Y Y 62
金融LLM ベンチマーク 日本語特化 (2024) – (1/2)評価・検証方法 apanese language odel inancial evaluation arness 、金融文書や資格試験に関するデータセットを扱う日本 語特化 ベンチマークである。 タスク概要 評 価・ 検 証 方 法 検証方法 chabsa • 金融文書 一種である、有価証券報告書に含まれる文章に関して、 • センチメント 分類として、PositiveとNegative 二値分 特定 単語に対するセンチメントを判定するタスク 類を取り評価値としてそれぞれ macro-fi値で評価 Cma basics • 証券アナリスト試験 サンプル問題をクローリングにより取得し成型 • 証券アナリスト試験から図を含む問題を削除し選択形式 したデータセットで構築された証券分析における基礎知識を問うタス で回答を問わせる方式で正答率を評価 ク Cpa audit • 公認会計士試験における短答式試験監査論 問題を収録したタス • 6択 問題を360問、5択 問題を38問取得しマーク式で ク 回答をさせ正答率を評価 fp2 • 2021年5月から2023年9月 過去問題を公式HPより取 • ファイナンシャルプランナー試験2級 選択問題を回答させるタスク 得し、図 問題 削除,表 マークダウン形式と問題を成 型した問題へ 回答率を評価 Security sales 1 • 外務員試験1級 文字試験や対策問題例をクローリング し、図 問題 削除など 成型をした問題へ 回答率を 評価 • 証券外務員試験1級に相当する模擬試験 タスク 参照: 金融分野における言語モデル性能評価 ため 日本語金融ベンチマーク構築 継続事前学習による金融ドメイン特化LLM 構築 検証 - Preferred Networks Research & Development © - , Y Y 63
金融LLM ベンチマーク 日本語特化 (2024) – (2/2)結果・考察 -4シリーズ スコアが高く、モデルパラメータ数が増えると性能も高まる可能性が示唆される。また、日本語に おいて 上位 まだまだクローズ 勢が優位である Model openai/gpt-4-32k openai/gpt-4 openai/gpt-4-turbo openai/gpt-35-turbo meta-llama/Llama-2-7 0b-hf meta-llama/Llama-2-7 0b-chat-hf Xwin-LM/Xwin-LM-13 B-V0.2 meta-llama/Llama-2-1 3b-chat-hf elyza/ELYZA-japanes e-Llama-2-7b-fast lmsys/vicuna-13b-v1. 5-16k mosaicml/mpt-30b-ins truct meta-llama/Llama-2-7 b-chat-hf llm-jp/llm-jp-13b-instru ct-full-jaster-v1.0 meta-llama/Llama-2-1 3b-hf Ave. chabsa cma_basics cpa_audit fp2 security_sales_1 source 66.27 93.16 81.58 37.44 50.74 68.42 Close 66.07 93.2 78.95 37.69 50.32 70.18 Close 64.59 89.26 80.96 37.3 50.66 66.67 Close 50.27 89.98 52.63 18.69 29.26 61.4 Close 50.21 90.21 57.89 20 58.09 57.89 Close 49.89 90.39 57.63 20 57.89 57.89 Close 47.53 88.11 52.63 21.11 49.12 49.12 Close 46.86 83.7 39.47 20.85 29.95 50.88 Open 46.04 82.52 44.74 17.84 30.74 54.39 Open 45.87 85.81 52.63 19.6 28.21 42.11 Open 45.18 83.27 42.11 21.36 26.53 52.63 Open 44.86 83.7 39.47 20.85 29.95 50.88 Close 44.77 89.57 39.47 20.15 30.42 50.88 Open 44.19 82.04 36.84 20.85 30.42 50.88 Open 参照: 金融分野における言語モデル性能評価 ため 日本語金融ベンチマーク構築 継続事前学習による金融ドメイン特化LLM 構築 検証 - Preferred Networks Research & Development © - , Y Y 64
まとめ ● 金融分野で ● 金融特化 LLM 研究・開発状況 ○ ChatGPT以降、金融特化 LLM 開発 動きも加 ○ 継続事前学習、ファインチューニングなど様々な手法で開発が行われている ○ 小規模でも金融 タスクについて汎用 LLM以上 性能を示す事例が多数 ○ 一方で引き続き GPTなど汎用 LLMが強いタスクも存在 ● 金融特化 LLM評価 ○ 金融特化 ベンチマーク「 FinBen」が登場 ○ リスク管理、株価予測、情報抽出などといった金融固有 に ● 大規模言語モデル( LLM) 技術進展を解説 高度なタスク 評価についても検証可能 日本 状況 ○ 日本語 金融特化 LLMも開発が徐々に始まっている ○ 日本語金融ベンチマークや日本語 金融データセット さらなる整備が課題か © - , Y Y 65
アジェンダ 序論 ● LLM 社会実装 状況 本論 ● ドメイン特化LLM ○ ドメイン特化 背景 ○ ドメイン特化 各手法 ● 金融特化LLM 進展と活用可能性 ○ 金融特化LLM 進展 ○ 金融特化LLM 評価について ● 金融領域におけるLLM 実活用 © - , Y Y 66
社会実装 © - , 状況 Y Y
金融業界における生成 AI 最新動向 金融業界 情報セキュリティに敏感な業界であるが、業務効率化及び個客価値向上に向けた観点から、幅広く活 用 検討が進んでいる 次ページ以降にて具体化 外資系金融機関 資産管理 業務 内容 投資戦略策定 国内銀行 保険 証券 保険商品 融資業務 株式・債権 売買 企画・開発 決済プラットフォーム 構築運用 金融リスク管理 資産運用 リスク管理 資産運用 UX向上 顧客サービス リスク管理 資産運用 M&Aアドバイザリー セキュリティ強化 社内業務特化 生成 AI活 用例 フィンテック LLM活用基盤構築 社内業務効率化 社内業務効率化 生成AI活用基盤構 築 AI企業へ 大型投資 社内文書 お問い合わせ対応 資産形成 音声お問い合わせ プラットフォーム 作成業務改善 RAG検索 ロボアドバイザー 文章化&分析 追加機能 参照:日経業界地図 2024年版 | 日経BOOKプラス (nikkei.com) © - , Y Y 68
(参考)金融業界における生成 AI 最新動向 – (1/4)外資系金融機関 モルガン・チェイス銀行 社内 基盤となる uiteをリリース。資産管理部門 生産性向上を目的に、ライ ティングアシスタンス、アイディア生成、文書要約など金融特化 として活用を推進 LLM活用構築基盤 機能概要 ベネフィット セキュアに生成AI • 活用が可能 社内データを GPTに学習させることなく活用可能であり、 金融タスクにおいても高い性能を持つことから提出書類 下書き生成やアイディアエーション等 幅広い業務で 活用可能 • LLM活用業務 顧客へ提出すべき資産運用レポート、市場分析レポート等 下書き • をLLMが生成や、金融記事や海外情報サイト 要約や提案アイ 現段階で ディア ディスカッションも可能 • 拡張性担保 主にテキスト情報 変換を中心とした業務へ 活用が進んでいるが、顧客リスク予測・トレーディング 自社データ 学習をコントロール可能な状態でOpenAI API仕様し 等 業務へ 応用 検証を進めることが可能 ている 参照:LLM(大規模言語モデル )と ?生成 AIと 違いや活用事例・課題 | DOORS DX JPMorgan Launches AI Assistant for 60,000 Employees © - , Y Y 69
(参考)金融業界における生成 AI 最新動向 – (2/4)国内金融 YZ と共同でオペレーター サポートとなる 検索システムを構築。最大でオペレーター 回答 を60%削減見込みや回答品質 画一化等 想定効果が存在 度 お問い合わせ対応RAG検索 機能概要 ベネフィット RAG環境構築により属人性 • 削減 社内文書を参照した上で生成 AIが返す仕組みなため、オ ペレーターが持つ知識 らつきを補填し対応品質を画 一化することが可能に。 • これにより、属人性減少によるお問い合わせ対応 頑健 性が向上が見込まれる。 段階的なオペレーター業務 • 顧客から お問い合わせ内容に合わせ、オペレーターが社内に溜 • 現段階で まる関連情報を取得し即座に回答できるシステムを構築 自動化 、RAG検索を通じ人が即座に高品質な回答 を返しているが、オペレーションを回す過程で完全に AIが 代替できる箇所が見え段階的にオペレーター業務 参照:news0001932.pdf (smbc-card.com) 自 動化が可能に © - , Y Y 70
(参考)金融業界における生成 AI 最新動向 – (3/4)フィンテック メルカリ プラットフォーム上で販売を行う人向けに、生成 を活用した出品改善システムを構築。社内に溜まった 販売ノウハウを提供すると共に、メルカリ・買い手・売り手 三方よし 状態を実現 プラットフォーム追加機能 機能 ベネフィット プラットフォーム上で • 売買促進 生成AIと対話しながら購入されやすい商品説明を生成 し、メルカリ上で 売買が促進され購入者が増加が見込 まれる • メルカリに 、「タイトルを改善したら注目されそう」「説明文にXXという要 素を加えたら売れそう」「商品 メルカリ販売におけるノウハウ 改善 元値を書いた方が売れやすい」といった ノウハウが蓄積されており、それらを基にタイトルや商品説明文章 • 改 既に蓄積しているノウハウをベースに改善をしたユー 善をAIと対話的に修正していく機能 ザー 販売情報 取得が可能なため、ノウハウ 良しあ しが定量的に判断できより良いノウハウにするに • カテゴリーごとに参照させるノウハウを切り替えている。 どう すれ よいかを検証することが可能 参照:メルカリ、生成 AI・LLMを活用してお客さま 最適な行動を促す「メルカリ AIアシスト」 提供を開始 | 株式会社メルカリ (mercari.com) :メルカリ「生成 AI実装」 内幕 売れるタイトル提案、成果も計測 | 日経BOOKプラス (nikkei.com) © - , Y Y 71
(参考)金融業界における生成 AI 最新動向 – (4/4)フィンテック ay al 投資子会社である ay al ventures ベンダー asaに対し tep toneグループと共同で3000万ドルを 出資。資本関係を結び蜜な連携をすることで業界における競合優位性 確立を目指す AI企業へ 概要 大型投資 出資意図 業界における競合優優位性 • 国内外 ス オンラインショッピングで 確立 決済、ローン、クレジットサービ バリューアップに伴い顧客と 蜜な会話が必須であり、Rasaが 提供する生成AIソリューションと深く連携することで競合優位性を高 める方針 • Pay Pal venturesとStep StoneグループがCALMと呼 れる独自 機能を持つ生成AIソリューションを提供しているRasaに合計3000 万ドルを出資 参照:PayPal Ventures Embarks on AI Journey | bobsguide :Rasa Developer Edition: Revolutionizing LLM-powered Chatbots | The Rasa Blog © - , Y Y 72
LLM導入 ガイドライン( Large Language Models in Finance: A Survey) 金融領域に特化した ガイドラインを推奨 を導入する上で、自社用 を開発する 大きなコストがかかるため、下図 ような zero-shot few-shot / inetune cratch raining Large Language Models in Finance: A Survey © - , Y Y 73
ドメイン特化 方法(再掲) ある領域に特化して学習したも をドメイン(領域)特化モデルと呼び、特化 領域特化 手法 手法 「事実」 「形式」 学習が得意 低 コスト 複雑さ プロンプト エンジニアリング 広義で FineTuning Supervised Fine-Tuning ・ InstructionT uning 継続事前 学習 高 様々存在する • モデルに入力するプロンプトを最適化し、領域適応させる手法 • モデル 重みを変更しないため、低コストで性能改善が見込める 学習が得意 国内で社会実装が進 んでいる こっち側 • 事前学習済み モデルを特定領域 デー タで微調整する手法(教師あり学習) • 知識 学習よりも出力形式 ているとされる 学習に向い • ベースモデルに対して、特定 言語やドメイン知識を追加で学習させる手法。(自己教師あり学習) • 一定 • Catastrophic Forgetting や過学習に フルスクラッチ 事前学習 • 言語モデルと情報検索を組み合わせて回答を 生成する手法 • 最新 情報を反映でき、回答 信頼性が高い RAG コストが発生する 注意が必要 ドメイン特化モデルで よく活用される手法 • 特定 言語やドメイン知識も合わせて学習させる手法 • 大量 データを学習可能な一方で、莫大なコストが発生する © - , Y Y ※松尾研内資料などをもとに作成 74
最新 © 社会実装トピック - , Y Y
モニタリング LLMという考え方 LLM 活用においてリスクを適切に管理するために 、モニタリングする仕組みが必要(モデルリスク管理 に沿った考え方)であり、LLM モニタリングを別 LLMで行うという考え方 https://www.lakera.ai/blog/llm-monitoring © - , Y Y 原則 76
モニタリング LLMという考え方 LLM 活用においてリスクを適切に管理するために 、モニタリングする仕組みが必要(モデルリスク管理 に沿った考え方)であり、LLM モニタリングを別 LLMで行うという考え方 原則 求められる要件 • 利用されている LLMと 独立してモニタリング ✔ 迎合せずに、評価する力 ✔ 金融実務を考慮した判断が可能なこと ✔ 小さいモデルでより大きなモデルをモニタリ ングできる力 ✔ 理想的に 全 LLM モニタリング可能 • 軽量に安価に運用できること • 実務上利用される LLM 多くが、米国製 汎用 LLMであることを考慮する、以下 能力も添えた い モニタリングLLM LLM 入出力データを常時モニタリングする別 © - , • LLM Y Y ✔ 十分な日本語能力 ✔ 金融知識、金融領域 理解 MRM原則へ 対応 一助となる考え方 77
(参考) RAG 限界 RAGに 技術上・社会実装上 限界が見え始めている。 概要 技 術 上 限 界 社 会 実 装 上 限 界 反復推論機能 欠如 具体例 • 質問に対して推論を反復しない • 文書自体 類似情報 検索精度が低いことがある • 検索先 データベース 検索結果が依存する 量や質、また整理方法に • 検索する要素が外部DBに依存しているため、膨大かつ動的 に増加するデータやを処理できる検索できる環境を作り続け られる費用が必要 解釈可能性 と透明性 • RAGモデルにおける検索が生成にど ような影響を与えて いる かについて 透明性を示す方法が限られている 人間 暗黙知追 加 必要性 • LLM 一部補うこと できるが、業界的な背景等、人が暗黙 知に理解していて回答に活用している情報 明文化されて いないことが多く、回答精度が低くなる 検索精度 限界 データ整理 必要性 拡張性 担保 で、戦略的な回答が難しい • AがBに与える影響を考えてと指示した場合、まずBを理解 する で なくA 情報を持つX個 ドキュメントを返すこ としか出来ない。 • 人から見たらニュアンス 違いである単数形,複数形 文を大きな差異であると判断してしまう。 • 文書内 画像を読み取ることが出来ない、表を読み取 ることが出来ない(一部読み取れるRAGもある) • 社内 経理に関するお問い合わせRAGから、営業資料 検索、マーケティングスコア 検索など社内業務を横 断的に検索可能とするケース • 金融や医療領域においてお客様に対し提案をする際、 RAGシステムがど 情報に基づきなぜそ 提案をした か全てを知ること 不可能 • 業界知識 回答を答える際に、暗黙知的な業界 など メタ認知ができていない 情報 参照: A Comprehensive Review of Retrieval-Augmented Generation (RAG): Key Challenges and Future Directions © - , Y Y 78
(参考) RAG 限界に対する対処法 それぞれ 限界に対する対処法 あるが、コスト(時間や費用)がかかったり、対処療法的な考え方となる LLM 概要 技 術 上 限 界 社 会 実 装 上 限 界 反復推論機能 欠如 多段活用 対処療法的な考え コストを見極める必要性 解決策 • 質問に対して推論を反復しない • 文書自体 • 検索先 データベース 索結果が依存する • 検索する要素が外部DBに依存しているため、膨大かつ動的 に増加するデータやを処理できる検索できる環境を作り続け られる費用が必要 • 事前にRAG環境が必要かどうか、必要な場合 でならROIが合うかを試算 解釈可能性 と透明性 • RAGモデルにおける検索が生成にど ような影響を与えて いる かについて 透明性を示す方法が限られている • RAG あくまで情報を検索するツールとして使い、責任が及 ぶ提案 意思決定 人が行う形で、役割を明確にし責任 所存を明らかにする 人間 暗黙知追 加 必要性 • LLM 一部補うこと できるが、業界的な背景等、人が暗黙 知に理解していて回答に活用している情報 明文化されて いないことが多く、回答精度が低くなる • ヒアリングやディスカッションを通じ暗黙知的な部分を明文化 し検索DBに格納 検索精度 限界 データ整理 必要性 拡張性 担保 類似情報 で、戦略的な回答が難しい • LLM 多段回答を活用し、複雑な質問について 論を繰り返し、的確な質問を返せるよう調整 LLMで推 • ドメインや使途によって出力に使うLLMを変える • 質問文をよりLLMによってわかりやすくクエリ 拡張 検索精度が低いことがある 量や質、また整理方法によって検 • 分類やタグ付けによってデータを整理 • 画像や表を文書に整理する ど 業務ま 参照: A Comprehensive Review of Retrieval-Augmented Generation (RAG): Key Challenges and Future Directions © - , Y Y 79
RAG 改善方法パターン データ 質と 精度 関連性を示唆。 側 問題で なく、データに問題があるパターンもある 7つ 1. 失敗 内容 欠落 - ドキュメントに答えがない場合、「答えがない」と 答えず、誤った回答を生成する。 2. 上位ランク文書 欠落 - 答えを含む文書が上位にランクさ れず、ユーザーに提供されない。 3. 文脈不足 - 必要な文書が文脈に含まれず、正確な回答が 得られない。 4. 抽出失敗 - 文脈内に答えがあっても、 LLMが正しい回答を抽 出できない。 5. フォーマット違反 - 指定された形式で 回答を求めているが無 視される。 6. 具体性 不一致 - 回答が一般的すぎるか、逆に過度に詳細 すぎる。 7. 引用: Seven Failure Points When Engineering a Retrieval Augmented Generation System © - , Y 不完全な回答 - 必要な情報 一部 みが回答に含まれる。 Y 80
金融領域で RAG 導入 精度向上 ために 、検索パイプライン、プロンプト、モデル なる。金融領域データを用いた検証を行う研究も実施されている。 三つ コンポーネントに関して工夫が必要に 評価用フレームワーク 検索パイプライン 生成モデル プロンプト 現状OpenAIが強い。情報 取得精度 最適化が重要で、 LLM 、取得情報が欠如し ていても「助けようとする」傾向がある。リコール向上と取得ノイズ抑制が重要。 https://aclanthology.org/2024.naacl-industry.23.pdf © - , Y Y 81
金融機関文書を対象とした RAG開発 難しさ 金融機関に 様々なマニュアル、ルールが存在し、それらが複雑に絡み合う、頻繁に外的、内的要因でアップデー トされるという問題がある。文書が一貫しない、不整合が存在する可能性がある点 を開発、利用する上で乗 り越えるべきハードルとなる 複雑な表現 / 専門用語 頻繁な更新 文書間 依存関係 関連法令 頻繁な更新と そ 対応が必要 考えられる対応 ● セマンティックサーチだけで なく、固有名詞を考慮した文 書検索 利用 ● 文書 更新 工夫、変更 時に影響範囲を考慮する機 能を用いるなど © - , Y Y ● による回答に、リンク先文 書を辿った上でコンテキストに 利用する方法、リンク関係 整 理 82
金融領域で RAG 導入 金融機関で 導入を進めて行くうえで、既存 社内文書 整理をすることや、社外で 変更にも対応できるよ うな仕組みを用意することが必要。 を金融機関で開発する取り組み こ 二つが大きなハードルとなっている ケースが多い。 部署間で同じ規定でもさまざまな表現になっ てしまっているケースへ 対応 規定 社外で 法的な変更などによる アップデート 必要性と必要箇所 修正 社内データ × 部署ごとに多様に異なる 形式 一貫したデータ ベース 生成AI ● ● ● 記載 表現 定義 仕方 仕方 仕方 © - , Y Y 83
LLMを活用した運用戦略に関する研究(松尾研 事例) 松尾研 金融チーム メンバーによる研究 成果を一部紹介 先行 研究 先行研究 、四季報 センチメントに超過リターンが存在す ることを報告。特に小型株に着目 (例) 力 源ホールディングス (3561 東証プライム) 【下振れ】 〜中略〜 → SELLラベル シグナル 生成 運用 戦略 上場企業に関するレポートから抽出したテキストをLLMに入 力し、三値 センチメントラベルを生成 (Buy, Neutral, Sell) 先行研究で報告があった、ネガティブセンチメント 小型株 における超過リターン 存在を確認。 これに基づくショート戦略をヘッジとして活用する ことで、パッシブ運用 (TOPIX) 成績改善を実現 ⇒AIを使って、金融市場に勝ちたい、こうした取り組みに興味 があるという方 ぜひ一度お話ししましょう! © - , Y バックテスト結果 TOPIX 戦略 変化幅 シャープレシオ 0.39 0.51 +0.12 年率リターン※ 9.96% 12.95% +3.0%pt 最大ドローダウン※ 35.3% 27.6% -7.7%pt ※ 年率リスクを 20%に調整した場合 Y 数値 84
まとめ ● 金融分野で 大規模言語モデル( LLM) ● LLM ● ドメイン特化について 複数 手法が存在 ○ フルスクラッチ、継続事前学習、 Supervised Fine-Tuning、InstructionTuning ○ RAG、プロンプト ● 金融領域における LLM 研究・開発について ○ ChatGPT 登場以降、金融特化 LLM 開発 動きも加 ○ 金融に特化した評価指標も研究が進んできている ○ 日本 世界から送れる形で、 LLM 開発、評価指標 研究が進んでいる ● 金融領域 社会実装 状況について ○ 日本で 現状 、クローズ LLM 利活用が中心 ○ RAGで精度が出ない問題、クローズ LLM 限界など 問題に直面 社会実装 本質 技術進展、社会実装 最新情報を包括的に紹介・解説 情報変換であり、二極化が進む(レイヤー 上下へ) © - , Y Y 85
© - , Y Y