【DL輪読会】RoboDreamer: Learning Compositional World Models for Robot Imagination (ICML2024)

2.7K Views

August 29, 24

#RoboDreamer #言語条件付け動画生成 #ロボット学習 #世界モデル #構成的生成

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.5K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 38K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.6K

各ページのテキスト

DEEP LEARNING JP [DL Papers] RoboDreamer: Learning Compositional World Models for Robot Imagination (ICML2024) 2024.08.29 Ryosuke Takanami, D1, Matsuo-Iwasawa Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • RoboDreamer: Learning Compositional World Models for Robot Imagination • • • • Project Page: https://robovideo.github.io/ arXiv: https://arxiv.org/abs/2404.12377 Github: https://github.com/rainbow979/robodreamer 著者：Siyuan Zhou, Yilun Du, Jiaben Chen, Yandong Li, Dit-Yan Yeung, Chuang Gan (HKUST, MIT, UCSD, UCF, UMass Amherst, MIT-IBM Watson AI Lab) • 概要： – ICML2024 採択論文 – 学習外の言語指示文にも対応できるような言語条件付け動画生成モデル（RoboDreamer）を提案 – RoboDreamerを世界モデル（予測モデル）として活用し、シミュレーション内でロボットの • 特に断りのない限り，図表等の出典は本論文、本プロジェクトページからの引用 2

概要 • 言語からの動画生成はロボット学習において世界モデル（予測モデル）としての役割が期待されているが、学習した物体と行動の単語の組み合わせ以外に汎化することが困難であった • RoboDreamerでは言語指示文を分解し、分解された文らを条件付けとして構成的に動画生成することで新しい単語の組み合わせの言語指示においても動画生成できるようになった 3

⾔語条件付け動画⽣成モデル • • 近年の⾔語条件付け動画⽣成モデル（text-to-video model）は、動画⽣成部のメインはU-Netをベースに構成され、CLIPのテキストエンコーダーを活⽤して、動作を表す⽂章から⼤まかなシーン全体の動きを⾼精細な動画として⽣成できる⼀⽅で、ロボットの⽅策や視覚的なダイナミクスモデルとして使⽤するには、シーン中の物体の正確な空間的配置の変化を考慮して⽣成する必要があり、現状の⽣成モデルはこの点が不得⼿言語条件付き動画生成モデル : AVDC [Ko 24] 既存手法が物体の空間的配置を捉えることに失敗している様子 4

⾔語条件付け動画⽣成モデル • • • 言語と画像から画像を生成するモデル: ControlNet [Zhang 23] そこで、⾔語だけでなく⽬標画像を条件付けて画像⽣成することで、より物体の位置関係の情報を補強する⽅法も登場[Zhang 23] しかし、学習中の⾔語と⽬標画像のペアに近しいペアでないとうまく⽣成できないそもそも、これまでの動画⽣成モデルは⼀般に学習中に含まれない⾔語表現に弱く、さらにロボット学習⽤のデータは規模が⼩さいため、ロボットのための動画⽣成モデルは学習が不⼗分になりやすい 5

⽣成した動画からロボットの⾏動への変換 • • • ⾔語を条件付けして⽣成した動画をロボットのプランニングとして活⽤するために、画像の遷移からロボットの⾏動を推定する逆動⼒学モデルを学習し、活⽤することが多い隣接する2フレームからoptical flowを推定して、そのoptical flowからロボットの⾏動を推定する⽅法や直接隣接する2フレーム画像からロボットの⾏動を推定する⽅法などが存在する今回紹介する⼿法は後者の直接⾏動を推定する⼿法を採⽤ Optical flowを経由して行動を推定する手法 [Ko 24] 直接画像遷移から行動を推定する手法 [Du 23] 6

⾔語条件付き動画⽣成モデルを活⽤した⾏動⽣成の課題 • 物体の詳細な空間配置変化を正確に予測するような動画の⽣成が難しい • ゴール画像を追加で条件付けてもロボットのデータセットが⽐較的⼩規模なため、⾔語と画像のペアの多様性が乏しく汎化性に⽋ける • そもそも⾔語に対する汎化性も乏しい言語の構成性をうまく活用して構成的に動画生成をするモデル 7

提案⼿法︓RoboDreamer • RoboDreamer – ⾔語の構成性を活⽤して、構成的に動画を⽣成する⼿法 – ⾔語指⽰⽂を動詞句と前置詞句（空間的関係を表している句）に分けてそれぞれ別々に条件付けして動画を⽣成 – より空間的な関係に焦点を当てた動画⽣成可能になり、また、⽂よりも⼩さい単位の語句の条件付けを考えることで新たな語句同⼠の組み合わせの⽂でも動画⽣成が可能 – さらに、構成的な動画⽣成は、語句と同様に画像を条件付けすることも可能 8

RoboDreamerの新規性 • Text parserを使った⾔語指⽰⽂の分割 – 事前学習されたparserを活⽤して動詞句と前置詞句に分割 – 動詞句は⾏動、前置詞句は空間的な関係を表している（ものを⽤意している） • 分割した⽂を条件付けとした構成的な動画⽣成 – 語句に条件づけて除去するためのノイズを学習 – 語句ごとに⽣成されるノイズを⼀律にデノイズして動画を⽣成 – ゴール画像、ゴールスケッチも同様に条件付けできるようにマルチモーダル化 9

10.

構成的な動画⽣成 • 定式化 – N分割された語句( )によって条件付けられた確率分布の積を⽂全体(. )によって条件付けられた確率分布としてみなす • はであり、動画 (画像. の系列) を表す – 損失関数は、⽂全体の最適化(1)と語句ごとの最適化 (2)をハイブリット的に⾏うための損失関数(3)を最終的に採⽤ • はノイズ、は拡散過程のタイムステップ、はランダムに選んだM個の語句による部分集合 (M<=N) (2) (1) (3) – ゴール画像やゴールスケッチが条件付けに含まれる場合は、前述の語句とほとんど同様な扱いで損失関数を定義 • は画像 10

11.

構成的な動画⽣成 • 学習・推論のアルゴリズム推論時に語句ごとのノイズの差を sum 11

12.

実験 • RQ1︓RoboDreamerは学習分布にない⾔語指⽰⽂にもzero shotに汎化するのか • RQ2︓マルチモーダルな指⽰による構成的な動画⽣成は空間的推論や物体の空間的な配置を向上させているか • RQ3︓RoboDreamerはロボット制御に有⽤であるか 12

13.

実験︓学習分布外の指⽰⽂に対する汎化性能 • 実験設定 – データセット︓RT-1の⼀部 • ロボットのマニピュレーションデータセット • 70k demonstrations, 500 tasks – 評価指標︓⼈間による0, 1評価 • 0: ⽣成動画内のロボットの挙動が不⾃然である、もしくはロボットがタスクに成功していないように⾒える • 1: ⽣成動画内のロボットの挙動が⾃然である、もしくはロボットがタスクに成功しているように⾒える • 動画と⾔語指⽰⽂の整合性を測る⼀般的な指標がないため、この指標を採⽤ – 提案⼿法詳細 • Text encoderはT5-XXLを使⽤ 13

14.

実験︓学習分布外の指⽰⽂に対する汎化性能 • 実験結果 – RoboDreamer w/oはtext parsing していない結果 – 未学習の指⽰⽂に対する動画⽣成が先⾏⼿法よりも⼤幅に改善 – Text parsingがあることで動画の質がより向上 14

15.

実験︓マルチモーダルな構成的動画⽣成による性能⽐較 • 実験設定 – データセット︓RT-1の⼀部 (前述) – 評価指標 • ⼈間による0, 1評価 (前述) • FVD – 提案⼿法詳細 • Text encoderはT5-XXLを使⽤ • Image encoderはStable DiffusionのVQVAEのencoderを使⽤ • ゴールスケッチはControlNetのannotatorを使⽤ 15

16.

実験︓マルチモーダルな構成的動画⽣成による性能⽐較 • 実験結果 – RoboDreamer (t) は⾔語だけで条件付けて⽣成 – RoboDreamer (t+s) は⾔語とゴールスケッチで条件付けて⽣成 – RoboDreamer (t+i) は⾔語とゴール画像で条件付けて⽣成 – ゴールスケッチやゴール画像を条件付けることでより⽣成動画の質が向上 16

17.

実験︓ロボット制御に対する有効性 • 実験設定 – 実験環境︓RLBench (シミュレーター) – 観測画像︓ロボットを正⾯から⾒るような画⾓の画像のみ – 提案⼿法詳細︓ • 動画⽣成時は、⾔語指⽰⽂のみを条件付けとして⽣成 • ロボットの⾏動は、⽣成した動画からあらかじめ学習した画像ベースの逆運動学モデルを使⽤して動画のフレーム間ごとに⽣成 17

18.

実験︓ロボット制御に対する有効性 • 実験結果 – Stack blocksやtake shoesといったlong-termのタスクで特に有効 – RoboDreamerの直接的な先⾏⼿法であるUniPiと⽐べると全体的には性能は良い傾向にある 18

19.

まとめ • まとめ – ⾔語の構成性をうまく活⽤できるような構成的な⾔語条件付け動画⽣成モデル (Robodreamer) を提案することで、学習分布を単なる⽂章の集合から語句の組み合わせの集合に拡張することで、より汎⽤的な動画⽣成が可能になった – また、構成的な条件付け動画⽣成モデルを考えることで画像による条件付けも可能になり、より物体の空間的な配置に正確な動画が⽣成できるようになった – RoboDreamerを世界モデルとして活⽤することでlong-termタスクにおいてプランニング性能向上が⾒られた • 感想 – ロボットの⾔語と動画のペアデータセットの収集コストを考えると定式化を少しいじるだけで学習分布を広げられる点がとてもいいと思った – ⾔語だけでなく観測画像も学習分布外の時は難しそうであると感じた（ロボットは構造が変わると画⾓が⼤きく変化し、移動するロボットだと環境も⼤きく変化するため、観測画像が容易に学習分布外になりやすい） – いくつかのプランニングタスクで既存⼿法よりやや劣っているタスクがあるのと実機ロボットで検証していないのが気になった 19

20.

Reference • • • • Zhou, S. et al. RoboDreamer: Learning Compositional World Models for Robot Imagination. ICML. 2024. Ko, P. et al. Learning to Act from Actionless Videos through Dense Correspondences. ICLR. 2024. Zhang, L., Rao, A. and Agrawala, M. Adding Conditional Control to Text-to-Image Diffusion Models. ICCV. 2023. Du, Y., et al. Learning Universal Policies via Text-Guided Video Generation. NeurIPS. 2023. 20