2K Views
August 22, 24
スライド概要
DL輪読会資料
左右の脳を一緒に使う: ビジョンと言語計画に向けて (ICML2024) Hiroshi Yamakawa, Matsuo Lab 1
書誌情報 • Using Left and Right Brains Together: Towards Vision and Language Planning – 著者は9名(主要著者: Jun Cen、Chenfei Wu、Xiao Liuが)所属は以下が含まれる • Southern University of Science and Technology(南方科技大学) • Microsoft Research Asia(マイクロソフトリサーチアジア) • The Hong Kong University of Science and Technology(香港科技大学) • Xi'an Jiaotong University(西安交通大学) • City University of Hong Kong(香港城市大学) • Peng Cheng Laboratory, Shenzhen(鵬城実験室、深セン) – URL • (arXiv) https://arxiv.org/html/2402.10534v1 • (ICML2024 papge) https://icml.cc/virtual/2024/poster/33100 • No code implementations yet – 人間の脳の左右半球の働きにヒントを得て、言語処理と視覚処理を統合した新しいAI推論フレ ームワーク(Vision-Language Planning)を提案する研究 2
ヒトの脳における左右の機能棲み分けの一般論 著者等のビデオより: https://www.youtube.com/watch?v=UgGuivPoIaY 3
研究背景と目的 1. 現在のAIモデルの限界 大規模マルチモーダルモデル(LMM)の問題点 a. 主に言語空間での計画に依存 b. 視覚的な推論能力が不足 2. 人間の脳の働きからのヒント 左半球:言語処理と論理的思考 • 右半球:視覚空間処理と直感的思 考 3. 研究目的 Vision-Language Planning (VLP) フレームワークの提案 a. 言語計画と視覚計画の統合 b. より人間に近い認知プロセスの実現 4. VLPの期待される効果 a. マルチモーダルタスクでの性能向上 b. より柔軟で文脈に応じた推論の実現 4
従来手法vs提案手法 • 提案手法(VLP) – 言語計画と視覚計画の統合 – 未来の視覚情報を生成・活用 – より柔軟で文脈に応じた推論 • VLPの利点 – 複雑なマルチモーダルタスクへの対応力向上 – 人間の認知プロセスに近いアプローチ – 視覚的想像力を活用した推論 • 従来手法(LMM) – 言語処理に重点 – 視覚情報を言語空間 に変換 – 限定的な視覚的推論 能力 5
VLPフレームワークの全体像 主要構成要素 • 言語計画 (Language Planning) • 視覚計画 (Vision Planning) • 決定メーカー (Decision Maker) 処理フロー • 入力:テキスト、 画像、ビデオ • 言語計画:タスク を小ステップに分解 • 視覚計画:未来フ レームを生成 • 決定メーカー:両 計画を統合し最終決 定 6
言語計画(Language Planning) 1. 概要 a. • タスクを小さなステップに分解 b. • 順序立てた推論プロセスの実現 2. 役割 a. • 複雑な問題の構造化 b. • より論理的な思考過程の模倣 3. 実装方法 a. • ゼロショット Chain-of-Thought 技術の利用 b. • 例:ChatGPTによる3ステップの質問生成 4. 具体例 質問:「その人はカップで他に何ができますか?」 a. 生成された計画: i. • ステップ1:カップの追加機能は? ii. • ステップ2:現状況でのカップの他の使用法は? iii. • ステップ3:カップの創造的な再利用方法は? 7
視覚計画(Vision Planning) 1. 概要 a.現在の画像/動画から未来のフレームを生成 b.視覚的な推論能力の向上 2. 主要構成要素 a.Vision Planning Generator (VPG): Stable Video Diffusion モデルを使用 b.Vision Planning Selector (VPS) i. Coarse Selector (CS): ChatGPT (CS) ii. Fine Selector (FS): BLIP-2 (FS) (視覚言語処理タスクのためのモデル) 3. 利点 a.未来の状態を予測し、より適切な判断が可能 b.視覚的な文脈を考慮した推論 4. 課題 a.生成された未来フレームの品質が重要 b.計算コストと推論時間の管理 8
決定メーカー(Decision Maker) 決定メーカーの役割 • 言語計画と視覚計画の結果を統合 • 最終的な出力を生成 決定メーカーの利点 • 複数の視点からの情報統合 • より堅牢な意思決定プロセス LLAVAを用いた実装 • 多段階の対話戦略 – バニラ回答 – 言語計画に基づく回答 – 視覚計画に基づく回答 – 投票メカニズム GPT4-Vを用いた実装 • 単一ステップでの統合 • 言語と視覚情報の同時処理 9
評価実験①:ビデオ質問応答タスク • 実験概要: – データセット:STAR, NExT-QA – タスク:ビデオの内容に関する多肢選択式質問に 回答 主な結果: ● VLPは既存の最先端手法 を上回る性能を達成 ● STARデータセットで平 均50.5%の正解率(従来 比+3.1%) ● NExT-QAデータセット で平均64.7%の正解率 (従来比+1.1%) VLPの優位性: ● 言語計画による論理的 推論の向上 ● 視覚計画による未来予 測能力の獲得 ● 複雑な質問に対する理 解力の向上 10
ビデオキャプション生成タスクの評価結果 • データセット: BDD-X(自動運転シナリオ) • 評価指標: – BLEU-4 (B) – CIDEr (C) – METEOR (M) • VLPの性能: – BLEU-4: 35.7(最高スコア) – CIDEr: 256.7(最高スコア) – METEOR: 31.1(最高スコア) • 考察: – VLPは全ての指標で最高性能を達成 – 特にCIDErスコアで大幅な改善(+9.2ポイント) – ビジョンプランニングがキャプション生成の質を向上 11
評価実験③:自動運転タスク • 評価指標: – 進路予測:RMSE(度)↓、精度(A_σ)↑ – 速度予測:RMSE(m/s)↓、精度(A_σ)↑ • 主な結果: – VPを追加したADAPTモデルが最高性能 – 進路予測:RMSE 6.2°、A_0.5 86.2% – 速度予測:RMSE 2.3m/s、A_0.5 35.3% • 考察: – 生成された未来フレームが予測精度向上に寄与 – 特に速度予測で大きな改善(RMSE 2.5→2.3、A_0.5 28.1%→35.3%) 12
事例研究:GPT-4V との組み合わせ(ビジョン関連タスク) • GPT-4Vを用いたVLPの効果 – タスク:車の次の行動予測 • バニラ回答vs言語計画vs視覚言語 計画の比較 – バニラ:確実な予測は不可能と回答 – 言語計画:より詳細な分析を提供す るが、依然として予測困難 – 視覚言語計画:正確な予測を実現 • 視覚計画の効果 – 生成された未来フレーム:歩行者が 道路を横断中 – GPT-4Vの回答: • 車は停止を維持 • 歩行者が安全に横断し、信号が青に変 わった後に進行 • 結論 – VLPは不確実な状況下でより確実な 予測を可能に – 視覚と言語の統合が判断精度を向上 13
事例研究:GPT-4V との組み合わせ(言語のみのタスク) GPT-4Vを用いた言語のみのタスクでのVLP活用例 • タスク:ニューヨークの 花火ショーに関するニュ ース記事作成 • VLPの効果: – 言語計画による構造化 – 生成された視覚情報によ る詳細な描写 • 主なポイント: – より具体的な場所の言及 (例:エンパイアステー トビル) – 花火の色彩豊かな描写 – 臨場感のある表現の増加 • 結論:VLPにより、より 詳細で魅力的な記事が生 成可能に 14
アブレーション研究 Table 3: STARデータセットでのVPとLPのアブレーション研究 • 主な知見: – ビジョンプランニング(VP)と言語プランニング(LP)の効果 • ベースラインと比較して性能が向上 • VP: 平均2.2%の精度向上 • LP: 平均3.0%の精度向上 • タスクによる効果の違い – ビジョン・言語タスク(STAR): LPがより効果的 – 純粋なビジョンタスク(BDD-X): VPがより効果的 • 組み合わせの効果 – VP+LPの組み合わせが最も高い性能を示す 質問タイプ Int.: Interaction(相互作用) Seq.: Sequence(順序) Pre.: Prediction(予測) Fea.: Feasibility(実現可能性) Avg.: Average(平均) 結論: • VPとLPは単独でも効果があるが、組み合わせることでさらなる性能向上が 可能。タスクの特性に応じて、VPとLPの重要性が変化する 15
ビジョンプランニングの成功例と失敗例 • 成功例: – 原画像のみでは「キャビネットを開 ける」と予測 – 生成された未来フレームにより「紙 /ノートを取る」と正しく予測 • 失敗例: – 原画像で正しく「箱を置く」と予測 – 生成された未来フレームにより誤っ て「カップ/グラス/ボトルを取る」 と予測 • 考察: – ビジョンプランニングは未来の状態 を予測し、より正確な判断を可能に する – しかし、生成された未来フレームの 品質が結果に大きく影響する • 重要ポイント: – ビデオ生成モデルの精度向上が課題 – 生成フレームの適切な選択が重要 16
言語プランニングの成功例と失敗例 成功例: • 質問:人が本を取る前に置いた物は何か? • バニラの回答:毛布(不正解) • 言語プランニング後の回答:サンドイッチ(正解) 成功の理由: • 段階的な質問により、詳細な状況把握 • 物の順序を正確に認識(皿を置いてから本を取る) 失敗例: • 質問:人はサンドイッチをどうしたか? • バニラの回答:食べた(正解) • 言語プランニング後の回答:置いた(不正解) 失敗の原因: • サブ質問への不適切な回答(予期せずに受け取った、投げ 捨てた) • 誤った情報に基づく最終判断 教訓: • 言語プランニングの質が結果を左右 • サブ質問の設計と回答の正確性が重要 17
ビデオ生成モデルの品質の重要性 • VLPの性能はビデオ生成モデルの品質に大きく依存 • 異なるビデオ生成モデルの比較結果: • 主な知見: – グラウンドトゥルースフレームが最高性能 – ドメイン特化型モデル(DMVFN)が汎用 モデル(Stable Video Diffusion)より優れる – - 低解像度生成(MCVD)は性能が劣る ビデオキャプション生成の評価指標 ● ● ● B (BLEU-4) C (CIDEr) M (METEOR) • 課題: – オープンドメインでの高品質ビデオ生 成 – タスク特化型ビデオ生成モデルの開発 • 将来展望: – ビデオ生成技術の進歩がVLPの性能向 上に直結 18
考察と今後の課題 1. ビデオ生成モデルの品質改善 • 現状の課題: - 生成された未来フレームの品質が不十分 - 不自然な動きや不明瞭な詳細が存在 • 改善の方向性: - より高解像度で自然な動きを生成できるモデルの開発 - タスク特化型のファインチューニング 2. 推論時間の短縮 • 現在のボトルネック: - ビデオ生成に60秒以上かかる場合も • 短縮への取り組み: - 拡散ステップの削減(例:50ステップから4ステップへ) - 推論時間を10秒程度まで短縮する技術の開発 3. その他の課題 • マルチモーダルモデルの更なる統合 • リアルタイム処理への対応 • 多様なドメインへの適用と検証 19
まとめと展望 • Vision-Language Planning (VLP)フレームワークの提案 - 言語計画と視覚計画の統合 - 人間の脳の左右半球の機能にヒントを得た設計 • 主な成果: - ビデオ質問応答、キャプション生成での性能向上 - 自動運転、ロボット操作タスクでの有効性 - GPT-4Vとの組み合わせによる効果的な運用 • 今後の展望: 1. ビデオ生成モデルの品質向上 2. 推論時間の短縮 3. より複雑なマルチモーダルタスクへの応用 4. 実世界のAIシステムへの統合 • VLPの可能性: - より人間らしい認知プロセスを持つAIの実現 - マルチモーダルAIシステムの能力向上 20
山川の考察: VLPフレームワークの脳器官への対応付け 入力処理: ● ● 視覚入力: 後頭葉(視覚野) 言語入力: 側頭葉(ウェルニッケ野) モダリティ変換: ● 頭頂連合野: 異なる感覚モダリティの情報を統合する役割 言語計画 (Language Planning): ● ● ● 前頭葉(特に左半球): 言語処理、計画立案 ブローカ野: 言語生成 背外側前頭前野: 実行機能、計画立案 本結果は、 Claude3の知識に基 づく簡易的なもの であることに注意 視覚計画 (Vision Planning): ● ● 右半球の頭頂葉: 空間認識、視覚的イメージの操作 後頭-頭頂経路: 視覚情報の処理と空間的操作 決定メーカー (Decision Maker): ● ● ● 前頭前野: 高次の意思決定、統合 前帯状皮質: 意思決定、感情処理 海馬: 記憶の統合と新しい情報の処理 出力生成: ● ● 運動野: 行動の計画と実行(ロボットタスクの場合) ブローカ野: 言語出力の生成 21
私達の関連研究: 海馬を参照した情報統合 目的: ● ● 海馬形成の構造を参考にしたロバスト な自己位置推定モデルの開発 Allocentric情報(MEC)とEgocentric情報 (LEC)の統合 主要な結果と考察 (左下): • CA3に対応する潜在変数がスパースな 表現を獲得 • ロボットが突然テレポートされる「誘 拐ロボット問題」において、高い性能 Nakashima, T., Otake, S., Taniguchi, A., Maeyama, K., El Hafi, L., Taniguchi, T., & Yamakawa, H. (2024). Hippocampal formation-inspired global selflocalization: quick recovery from the kidnapped robot problem from an egocentric perspective. Frontiers in Computational Neuroscience, 18. 22
[3] Brain-Inspired Intelligence 脳参照アーキテクチャ(BRA)をベースにしたモデル開発や分析を通じ、脳の仕組みを解き明かす。 全脳BRA構築 ヒト脳型AGI データ自動生成 Building BRA data Human Brain morphic AGI Automated data building 神経科学知見に基づき、脳全体にわたる BRAデータの構築と評価を行う。他方で部 分的に計算機能の仮説をHCD/FRGとして構 築し、それに基づき計算モデルを実装する。 BRAを活用しつつ脳モデルの実装や、脳 データの解析を行う。さらにモデルを用 いた機能不全の分析(医療)。脳のように 機能や状態(意図・欺瞞など)を解釈で きる可能性を探求する。 BRAデータの作成/評価に関わるパイプラ インを構築し、LLMを用いて自動化する。 2027年までに最初の全脳BRAを構築し、 その後は自動更新できる状況を目指す。 主な脳器官と しては、新皮 質、海馬、基 底核、前障、 小脳などを含 む ● ● ● ● ● 脳参照アーキテクチャ(BRA) 脳情報フロー(BIF) 仮説的コンポーネント図(HCD) 機能実現グラフ(FRG) Strructure-constrained Interface Decomposition (SCID) 法 Brain-inspired AI LLM+RLHF ≠ (Yampolskiy, 2024). ● ● ● ● AIアライメント(脳に基づく解釈可能 性などを含む) 脳シミュレーションと脳の分析 脳の機能不全のモデル化 人と親和性の高いコミュニケーショ ン ● ● ● ● ● BRAデータの自動評価と自動作成 WBA技術ロードマップ 大規模言語モデル BRA Editorial System (BRAES) Bibliographic database for BRA (BDBRA) 23
[3] Brain-Inspired Intelligence 研究ミッション 脳参照アーキテクチャ(BRA)をベースにしたモデル開発や分析を通じ、脳の仕組みを解き明かす テーマ① テーマ② テーマ③ 全脳BRA 構築 ヒト脳型 AGI データ 自動生成 神経科学知見に基づき、脳全体にわたる BRAデータの構築と評価を行う。 他方で部分的に計算機能の仮説をHCD/FRG として構築し、計算モデルを実装する。 BRAを活用し、脳モデルの実装や、脳データ の解析を行う。モデルを用いた機能不全の分 析(医療)や脳のように機能や状態(意図・ 欺瞞など)を解釈できる可能性を探求する。 BRAデータの作成/評価に関わるパイプライ ンを構築し、LLMを用いて自動化する。 2027年までに最初の全脳BRAを構築し、 その後は自動更新できる状況を目指す。 キーワード例 キーワード例 キーワード例 ● ● ● ● ● 脳参照アーキテクチャ(BRA) 脳情報フロー(BIF) 仮説的コンポーネント図(HCD) 機能実現グラフ(FRG) Strructure-constrained Interface Decomposition (SCID) 法 ● ● ● ● AIアライメント (脳に基づく解釈可能性等を含む) 脳シミュレーションと脳の分析 脳の機能不全のモデル化 人と親和性の高いコミュニケーショ ン ● ● ● ● ● BRAデータの自動評価と自動作成 WBA技術ロードマップ 大規模言語モデル BRA Editorial System (BRAES) Bibliographic database for BRA (BDBRA)