【DL輪読会】Pre-Trained Video Generative Models as World Simulators

>100 Views

January 08, 26

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Pre-Trained Video Generative Models as World Simulators Ku Onoda, Matsuo Lab http://deeplearning.jp/ 1

2.

書誌情報 • Pre-Trained Video Generative Models as World Simulators – ICLR 2025 workshop, AAAI 2026 • 概要 – 事前学習済みの動画生成モデルを、行動入力に従って状態が遷移する 「世界シミュレータ(world model)」として使えるようにする手法 Dynamic World Simulation (DWS)を提案 – アーキテクチャに依存せず、既存の動画生成モデルをアクション条件付け生成 モデルへ変換する – モデルベース強化学習に使用してSOTAよりも高い性能 2

3.

背景 • 通常の動画生成モデルはリアルな映像を作ることはできるが、世界と のインタラクションはできない – Sora, Veo, Wanなどの動画生成モデルは静的なテキスト、画像から高品質な動 画を生成できるが、一方向の生成である • World Simulator – モデルベース強化学習などの分野では、エージェントの行動(アクション)に 応じて世界がリアルタイムに変化するシミュレータが求められる 3

4.

背景 • 世界モデル構築の障壁 – 1.膨大な計算コスト • スクラッチからの学習には莫大な計算資源が必要になる – 2.アーキテクチャへの依存 • 従来の手法では、既存モデルのファインチューニング手法はモデル構造に縛られ汎用性が ない – 3.微細な動的な変化を捉える必要がある • フレームレベルでのaction alignmentが必要不可欠 – 特にモデルベース強化学習では、背景やオブジェクトの詳細のモデリングよりも、フレームごと の動的な変化や動きの変化を捉えることが優先される 4

5.

提案手法 DWS • Dynamic World Simulation (DWS) – 事前学習済みの動画生成モデルを少ない計算コストでworld simulator として変換するフレームワーク – 特徴 • 軽量のアクション条件付けモジュールをモデルに 追加して学習する • 事前学習済みモデルのアーキテクチャに依存しない – Diffusionベース, Transformerベースの両方に適用可能 5

6.

手法 Action-Conditioned Module • アクションを埋め込み表現として直接条件付け • 各video embedding を任意ネッ トワークブロックに入力する前に以下で処理 – , は から回帰されたi番目のフレームの スケールとシフトパラメータ 6

7.

手法 Motion-Reinforced Loss • アクション依存の状態変化を捉えるための損失関数 – 連続フレーム間の差分 – ここで を計算する で、x0は初期フレームなのでw0=1, cはモーション強度を調整するハイパラ – これを、元の損失と掛け合わせる (Diffusion models: MSE loss, Transformer-based: cross-entropy loss) → フレーム間で差分が大きいほど、強く重み付けされる 7

8.

手法 Model-Based RL • モデルベース強化学習への応用 – 報酬の予測モデルを追加 • 過去の観測と行動を与えられた場合に報酬を推定するモデル を導入 – MBPOのフレームワークを使用 – ベースアルゴリズムとしてPPOを採用 – Prioritized Imagination • 環境から収集された経験からサンプリングされる初期観測から出発する必要がある • 従来のMBRL手法では、初期観測を均一にサンプリングしていたが、そうではなく、 バッファから、TD誤差の大きさによって測定される高い期待学習進捗度をもつ初期観測に 優先順位をつけることで学習を効率化 8

9.

実験 Action-Conditioned Simulation • 実験設定 – 事前学習モデル • Open-Sora (diffusion model) – 計算リソースの制約のため280Mパラメータのものを使用 • iVideoGPT (transformer-based model) – 自己回帰のアーキテクチャ – データセット • BAIR:連続アクション、ロボットマニピュレーション • Procgen(Coinrun, Ninja):離散アクション、 2Dゲーム • Atari (Breakout, Battle Zone):離散アクション、2Dゲーム 9

10.

実験 Action-Conditioned Simulation • 定量評価 – どちらのベースモデルに対しても、生成性能が向上 – 連続空間、離散空間のどちらも、生成性能が向上 10

11.

実験 Action-Conditioned Simulation • 定性評価 – ベースモデルでは、視覚的に不自然な動画を生成する傾向にあるが、DWSに よって、オブジェクトの一貫性を維持しながら、正確な視覚予測を生成する 11

12.

実験 Model-Based RL • 実験設定 – ベンチマーク • Procgenベンチマーク(Coinrun, Ninja) • Atariベンチマーク(Breakout, Battle Zone) – 比較手法 • PPO(モデルフリーRL手法) • DreamerV3(モデルベースRL SOTA手法) • PPG(Procgenの比較用手法 モデルフリー) 12

13.

実験 Model-Based RL • 実験結果 – モデルフリー手法、モデルベースSOTA手法を上回る性能 13

14.

実験 Model-Based RL • Ablation study – 重要度を考慮したバッファーからのサンプリング(Prioritized Imagination) により性能が向上 14

15.

実験 Offline Model-Based RL • 学習済みworld modelを利用して、オフラインデータセットを拡張し ポリシーを改善できるか • 実験設定 – Coinrun, Ninja – 学習済みPPOでエキスパートデータを100万件収集 – 評価対象となる各環境で、学習中にOpen-Sora + DWSからさらに100万件の 状態・行動遷移を合成し、データセットのサイズを2倍にする – 比較アルゴリズム • Conservativ Q-Learning (CQL) • Implicit Q-Learning 15

16.

実験 Offline Model-Based RL • 実験結果 – どちらのアルゴリズム、ゲームにおいても、データ拡張によるパフォーマンス の向上が見られた → world simulatorによるデータセットの補完に寄与 16

17.

まとめと限界 • 事前学習済み動画生成モデルをworld simulatorとして適応させるフ レームワークであるDWSを提案 – アクションとフレームのアラインメントを可能に – 様々なアーキテクチャに統合できる軽量なアクション条件付きモジュール • 実験により、ビデオ予測品質とMBRLの両方の性能を向上させた • 長期的な生成、高解像度の動画のモデリングは今後の課題 17

18.

MBRL アルゴリズム 18