【DL輪読会】Pre-Trained Video Generative Models as World Simulators

348 Views

January 08, 26

#動画生成 #世界シミュレータ #強化学習 #深層学習 #AI

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.6K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.3K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 49.1K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 46.7K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Pre-Trained Video Generative Models as World Simulators Ku Onoda, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • Pre-Trained Video Generative Models as World Simulators – ICLR 2025 workshop, AAAI 2026 • 概要 – 事前学習済みの動画生成モデルを、行動入力に従って状態が遷移する「世界シミュレータ（world model）」として使えるようにする手法 Dynamic World Simulation (DWS）を提案 – アーキテクチャに依存せず、既存の動画生成モデルをアクション条件付け生成モデルへ変換する – モデルベース強化学習に使用してSOTAよりも高い性能 2

背景 • 通常の動画生成モデルはリアルな映像を作ることはできるが、世界とのインタラクションはできない – Sora, Veo, Wanなどの動画生成モデルは静的なテキスト、画像から高品質な動画を生成できるが、一方向の生成である • World Simulator – モデルベース強化学習などの分野では、エージェントの行動（アクション）に応じて世界がリアルタイムに変化するシミュレータが求められる 3

背景 • 世界モデル構築の障壁 – 1．膨大な計算コスト • スクラッチからの学習には莫大な計算資源が必要になる – 2．アーキテクチャへの依存 • 従来の手法では、既存モデルのファインチューニング手法はモデル構造に縛られ汎用性がない – 3．微細な動的な変化を捉える必要がある • フレームレベルでのaction alignmentが必要不可欠 – 特にモデルベース強化学習では、背景やオブジェクトの詳細のモデリングよりも、フレームごとの動的な変化や動きの変化を捉えることが優先される 4

提案手法 DWS • Dynamic World Simulation (DWS) – 事前学習済みの動画生成モデルを少ない計算コストでworld simulator として変換するフレームワーク – 特徴 • 軽量のアクション条件付けモジュールをモデルに追加して学習する • 事前学習済みモデルのアーキテクチャに依存しない – Diffusionベース, Transformerベースの両方に適用可能 5

手法 Action-Conditioned Module • アクションを埋め込み表現として直接条件付け • 各video embedding を任意ネットワークブロックに入力する前に以下で処理 – , はから回帰されたi番目のフレームのスケールとシフトパラメータ 6

手法 Motion-Reinforced Loss • アクション依存の状態変化を捉えるための損失関数 – 連続フレーム間の差分 – ここでを計算するで、x0は初期フレームなのでw0=1, cはモーション強度を調整するハイパラ – これを、元の損失と掛け合わせる（Diffusion models: MSE loss, Transformer-based: cross-entropy loss） → フレーム間で差分が大きいほど、強く重み付けされる 7

手法 Model-Based RL • モデルベース強化学習への応用 – 報酬の予測モデルを追加 • 過去の観測と行動を与えられた場合に報酬を推定するモデルを導入 – MBPOのフレームワークを使用 – ベースアルゴリズムとしてPPOを採用 – Prioritized Imagination • 環境から収集された経験からサンプリングされる初期観測から出発する必要がある • 従来のMBRL手法では、初期観測を均一にサンプリングしていたが、そうではなく、バッファから、TD誤差の大きさによって測定される高い期待学習進捗度をもつ初期観測に優先順位をつけることで学習を効率化 8

実験 Action-Conditioned Simulation • 実験設定 – 事前学習モデル • Open-Sora (diffusion model) – 計算リソースの制約のため280Mパラメータのものを使用 • iVideoGPT (transformer-based model) – 自己回帰のアーキテクチャ – データセット • BAIR：連続アクション、ロボットマニピュレーション • Procgen（Coinrun, Ninja）：離散アクション、 2Dゲーム • Atari (Breakout, Battle Zone)：離散アクション、2Dゲーム 9

10.

実験 Action-Conditioned Simulation • 定量評価 – どちらのベースモデルに対しても、生成性能が向上 – 連続空間、離散空間のどちらも、生成性能が向上 10

11.

実験 Action-Conditioned Simulation • 定性評価 – ベースモデルでは、視覚的に不自然な動画を生成する傾向にあるが、DWSによって、オブジェクトの一貫性を維持しながら、正確な視覚予測を生成する 11

12.

実験 Model-Based RL • 実験設定 – ベンチマーク • Procgenベンチマーク（Coinrun, Ninja） • Atariベンチマーク（Breakout, Battle Zone） – 比較手法 • PPO（モデルフリーRL手法） • DreamerV3（モデルベースRL SOTA手法） • PPG（Procgenの比較用手法モデルフリー） 12

13.

実験 Model-Based RL • 実験結果 – モデルフリー手法、モデルベースSOTA手法を上回る性能 13

14.

実験 Model-Based RL • Ablation study – 重要度を考慮したバッファーからのサンプリング（Prioritized Imagination）により性能が向上 14

15.

実験 Offline Model-Based RL • 学習済みworld modelを利用して、オフラインデータセットを拡張しポリシーを改善できるか • 実験設定 – Coinrun, Ninja – 学習済みPPOでエキスパートデータを100万件収集 – 評価対象となる各環境で、学習中にOpen-Sora + DWSからさらに100万件の状態・行動遷移を合成し、データセットのサイズを2倍にする – 比較アルゴリズム • Conservativ Q-Learning (CQL) • Implicit Q-Learning 15

16.

実験 Offline Model-Based RL • 実験結果 – どちらのアルゴリズム、ゲームにおいても、データ拡張によるパフォーマンスの向上が見られた → world simulatorによるデータセットの補完に寄与 16

17.

まとめと限界 • 事前学習済み動画生成モデルをworld simulatorとして適応させるフレームワークであるDWSを提案 – アクションとフレームのアラインメントを可能に – 様々なアーキテクチャに統合できる軽量なアクション条件付きモジュール • 実験により、ビデオ予測品質とMBRLの両方の性能を向上させた • 長期的な生成、高解像度の動画のモデリングは今後の課題 17

18.

MBRL アルゴリズム 18