509 Views
March 13, 25
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] PhysBench: Benchmarking and Enhancing VisionLanguage Models for Physical World Understanding Kai Yamashita, Matsuo Lab http://deeplearning.jp/ 1
書誌情報 Title: PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding Authors: Wei Chow, Jiageng Mao, Boyi Li, Daniel Seita, Vitor Guizilini, Yue Wang Accepted to ICLR2025 (Oral) TL;DR VLMの物理世界理解能力を評価するための新しいベンチマークPhysBenchを提案した.このPhysBenchを用いるこ とで既存のVLMには人間レベルと物理世界理解能力において大きなギャップがあることを示した.さらに,VLM の物理世界理解を向上させるためのフレームワークPhysAgentを提案し,実験によって理解能力を向上させられ ることを示した. 2
Background Vision-Language Model (VLM) 画像や動画などの視覚情報とテキスト情報を同時に捉えることができる言語モデル 画像情報をProjectorによって変換することで, テキスト情報と画像情報を同時に扱えられる VLMを用いてEmbodied AI(実世界やシミュレーション環境など,物理環境のなかで知能を発揮する エージェント,システム)を実現することが近年注目されている 3
Background VLMによってEmbodied-AIは実現可能か? VLMは”常識””知識”を大量のデータから学習することで,推論能力やタスク計画において高い性能を 発揮することが示されている ただし,これだけではEmbodied-AIには不十分 • 壊れやすい物体の扱いを失敗する • 適切な把持アフォーダンスの認識に失敗 物理世界に関する理解が十分になければ,物理世界での応用は難しい • VLMは物理世界を理解しているのか?もし理解していないとすれば,その要因は何か? • どのようにしてVLMの物理世界理解能力を高めることができるのか? 4
Related Work Multi-Modal Language Model 言語以外のモダリティをProjectorを通してText Token空間に射影することで,複数のドメインを跨い だ言語モデルが構築可能 5
Related-Work • 初期のベンチマークはVision-Only Model向けに提案されていた • 最近では,球や立方体,剛体同士の衝突といった限定的なシミュレーションによる評価手法も提 案されてきた • しかし,既存のベンチマークは主に”常識”推論に焦点を当てており,物理世界の知覚という側面 を必ずしも重視できていない.また,物理世界で発生する一部分の現象しかカバーできていない 6
PhysBench 1. Physical Object Property 質量,サイズ,密度,張力,摩擦,曲げ剛性,弾 性,塑性などの物体の物理特性 2. Physical Object Relationships 複数の物体の相対的,絶対的な位置や運動など空 間的な関係 3. Physical Scene Understanding 光源,視点,温度などの環境要因を理解し,シー ン全体に与える影響を推論する 4. Physical-based Dynamics 衝突,投擲,流体現象,爆発など物理現象に基づ くイベントを解析し,将来の状態を予測 7
PhysBench データセットの構成 1つが正答の4択問題 一つの画像だけでは特徴を捉えきれない場合があるので,動画や複 数枚の画像も活用 似たような初期状態を持つが,異なる物理特性を持つことにより, 異なる将来の結果となるデータを含ませることにより,幅広い物理 的状態をカバーできる インターネット,実世界の映像,シミュレーションからデータを収 集し,テキスト,画像,動画が統合されたフォーマットとして整形 し,19のサブクラスからなる10002個のデータセットを用意(今後の 研究のために,89998のデータも用意 8
PhysBench Dataset Collection Process 全ての質問はSTEM分野の大学院生によって手作業で注釈が付けられ,さらにデータセット作成後に 厳密なレビュープロセスで洗練させた 1. Video Collection 物理現象を多面的に捉えるため,シミュレーション環境,Webからの動画収集,現実世界の撮影など多様なソースから収 集.事前に定義されたシミュレーションルール,LLMガイド付きクエリなどを利用して,データを収集.人間のアノテー ターはclippingや対象のデータの物理特性によってrefineする 2. Video Captioning オリジナルの動画は自動的なフィルタリングを行ったのちにGPT-4oの生成したキャプションを付与する 3. Question Design ヒューリスティックなルールとGPT-4oを用いて物理に関連した質問を生成し,自動的と人間的なレビュープロセスによ り,無関係な質問を除く 4. File Organization データはタスク,サブタスク,能力によって分類する 5. Quality Check 人間によるレビューで質問が物理世界に関連することか,全ての入力情報に依存するか,常識に基づいた質問ではないこ とを保証する 9
PhysBench Dataset Collection Process 1. 2. 3. 4. 5. Video Collection Video Captioning Question Design File Organization Quality Check 10
PhysBench データセットの例 11
Evaluation of VLLMs on PhysBench • 大半のモデルは平均正解率が約40%に留まり, 人間のスコア(95.87%)には遠く及んでいない • 最も性能が良いモデルはGPT-4oの49.49% 12
Evaluation of VLLMs on PhysBench 物理シーンの理解や物理ベースのダイナミクスのスコアが特に低く,大きな改善の余地が残されてい ることがわかる 13
Open-VLM vs Closed-VLM • GPTシリーズやGemini-1.5系などのClosedなモデルがオープンソースのモデルよりも明らかに高い 性能を示している • ただ,Claudeに関しては明確な優位性が確認されていない(他のベンチマークでも同様の傾向) 14
Evaluation of PhysBench • 相関Mapの結果から,PhysBenchは既 存のVLM Benchmarkとは異なること がわかる • POPEと近い傾向を示している 15
Scaling-Law on PhysBench • モデルサイズをスケールさせた際に,Common VQAタスクだと性能も向上するが,PhysBenchでは その傾向は発生しない • 学習データセットを拡張しても,性能は向上しない – LlaVAのデータ拡張版であるVILAやPLLaVAはPhysBenchではほとんど改善が見られない • フレーム数の増減にも無関係 ←PhysBenchのスコアにスケーリング則が適用されない! 16
Why can’t VLMs solve PhysBench? • • 誤答の主な原因は,主に知覚の誤り(Perception Error)と,知識の不足(Lack of Knowledge)であることが わかる モデルがテキストや視覚的入力から情報を抽出する能力には優れているものの、物理世界の理解や複雑 な推論能力は依然として限定的であることを示している。 17
Why can’t VLMs solve PhysBench? • In-Context LearningやFine-Tuningによる知識挿入がPhysBenchでの性能を改善する • VLMに物理世界の知識が足りていなかったことへの証左となる 18
PhysAgent • 3つのVision Foundation Models(Depth Anything, SAM, Grounding DINO)を知覚の補助として利用 • 物理世界に関する知識をまとめたKnowledge Memoryを追加 PhysAgentの仕組み 1. PhysAgentはまず,質問が何に関するものか分類し,タスク特有のプロンプトを有効化し,関連する知識をKnowledge Memoryから引用 2. 次に,Foundation Modelsの出力をVLMによって解釈し,関連する知識をKnowledge Memoryから引用 3. CoTを用いたreasoningを行なって,最終的な回答を生成 19
Evaluation of PhysAgent PhysAgentの適用が最もVLMの物理世界理解能力を高めたことが確認された 20
Evaluation on Embodied-Agent Taks 5種類のEmbodied-AI taskを用意し,Simulation空間上で実験 21
Evaluation on Embodied-Agent Tasks • PhysBenchの部分集合データセットでFine-Tuneすると, 性能が向上した →PhysBenchのデータが高品質であり,open-world robotics tasksにおけるデモンストレーション データとして適切であることの証左 • PhysAgentの適用によって,性能が向上した →PhysAgentの適用がEmbodied AIの性能向上の証左 22
Conclusion 本研究の貢献 • Vision-Language Modelの物理世界理解能力を評価できる大規模なデータセットPhysBenchを提 案し,なぜ現状のVLMが物理世界能力に問題を抱えているのかに関する洞察を提供 • VLMに適用できる,VLMの物理世界理解能力を向上させるためのフレームワークPhysAgentを提 案し,実験によってVLMの物理世界理解能力を向上させることができ,Downstream Task とし てのEmbodied agentsとしての能力を向上させられることを示した 感想 • VLMはVisionの情報を高い性能で理解できているが,あくまでその能力は断片的であり,人間の 能力には遠く及んでいないと考えられる.特にVLMの物理世界理解能力については良くわかって いなかったが,この研究によって評価が可能になったと考えられている • コード(データセット)も公開されており,実際に試してみたい 23
Appendix 24
Tasks 25
SubTypes 26