tabata_LargeWM_ActionConditioning_slide

5.4K Views

October 23, 23

#VideoGPT #行動条件付け #世界モデル #VQ-VAE #フレーム条件付け

スライド概要

世界モデルは外界の観測をもとに外部構造を獲得するモデルのことであり，エージェントの行動に伴って変化する外界の将来の状態を予想することができる．近年の生成モデルや言語モデルの進歩はマルチモーダルな世界モデルの発展に貢献しており，自動運転やロボティクスなどの多くのドメインでの応用が期待されている．映像予測は，高精細さと長期予測という点で進展した分野であり，時間的表現の獲得を目的とする世界モデルの応用が考えられる．モデルアーキテクチャの例として，再構成タスクを学習することによって観測の潜在的な表現を学習するEncode-Decoderベースの潜在変数モデルと潜在変数列を予想するTransformerベースの自己回帰モデルの組み合わせが良い性能を発揮している．本研究では，VQVAEとImage-GPTを用いたVideoGPTと呼ばれる動画予測モデルに行動条件付けを導入することで拡張した．CARLAとRoboNetを用いた検証の結果，条件付けなしのモデルと比較して性能が向上した．

weblab

@weblab

スライド一覧

weblab

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

iwasawa_SLTH_slide

weblab 15.8K

yamatsuta_jsai_slide

weblab 9.6K

nakano_intrinsic_slide

weblab 8.6K

takashiro_daikibo_slide

weblab 8.1K

oshima_iterative

weblab 7.7K

KoheiHiraki_Transformer_slide_JSAI2023

weblab 7.7K

各ページのテキスト

行動条件付けVideoGPTの構築と検証東京大学 / 株式会社松尾研究所発表者：田畑浩大 ©︎MATSUO INSTITUTE, INC.

世界モデルと行動世界モデルとは「エージェントを取り巻く環境・身体など様々な要素を学習によって内部的に構築する枠組み」 https://www.ai-gakkai.or.jp/jsai2023/os#os-21 エージェントの行動が世界にどういう影響をもたらすかの因果（ルール）を獲得行動：自転車をこぐ行動：バットを振るエージェントの行動を条件づけた世界モデルを学習する ©︎MATSUO INSTITUTE, INC. 2

https://www.ai-gakkai.or.jp/jsai2023/os#os-21

世界モデルとしてのVideoGPT VQ-VAEで動画の潜在表現を獲得，Transformerによる自己回帰を行う再構成 VQ-VAE Decoder 潜在表現系列 VideoGPT VQ-VAE Encoder ・・・入力動画（特徴抽出器（学習済み））（自己回帰モデル） [Yan+ 2021] 高解像度な画像を低次元の潜在変数に圧縮することによってサンプリング速度と計算要件を向上させた動画予測モデル観測の潜在表現がどのように時間発展するかを学習する世界モデル ©︎MATSUO INSTITUTE, INC. 3

VideoGPTへの行動条件付けの導入 VideoGPTは実際に行動条件付けを行った際の効果に関する詳細な検討は行われていない目的：VideoGPTに行動を条件づけてその効果を検証する GPTのLayer Normalizationにconditional layer normalization[Vries+, 2017]を用いる ● actionトークン２つをVQ-VAEの1つのトークンに対応づけた ○ ● VQVAEトークンとactionデータのトークン数を一致させる actionデータを線形NN(FC)で変換した密ベクトルをβとγとして使用 ©︎MATSUO INSTITUTE, INC. 4

フレームの条件付け ● Frame条件付けでは，16フレーム中の初めの3フレームを使用 ● Multi Head Attentionを追加し，Key, Valueとしてフレーム条件付けを行う初めの3frameで条件付け ©︎MATSUO INSTITUTE, INC. 5

実験手法 VQ-VAEの訓練 Kinetics-600データセットを用いて，16x128x128の動画を8x32x32に埋め込むように訓練 [Yan+ 2021] GPTの訓練 VQ-VAEを用いて取得したトークンの系列を生成するようにGPTを訓練損失関数は交差エントロピー誤差を用いた２つのデータセットについて16 framesごとに区切り訓練 ● CARLAデータセット CARLA [Dosovitskiy, 2017] 15M frames (166K episodes) 行動：速度，角速度１エピソードあたり：15-30 frames (2-4 sec) ● RoboNetデータセット 1.2M frames (15K episodes) １エピソードあたり：80 frames (20 sec) 行動：エンドエフェクタの空間座標と roll 及びグリッパの開閉 ©︎MATSUO INSTITUTE, INC. RoboNet [Dasari, 2019] 6

CARLAでの実験結果 ● 条件付けを追加することで損失がより小さくなる ○ 条件なし > フレーム条件 > フレーム+行動条件 ● 行動によって背景が正しい方向に動いていることが確認できる ● 左右などの細かいカーブの際に動画が崩れる傾向がある生成結果 Predict GT 学習曲線 7

CARLAでの推論結果の詳細加減速や旋回の表現の獲得減速 ● 旋回や加速に関する定性的な結果は確認できる ○ 初速がある状態で，速度=0にするとブレーキがかかる ○ 直進道路で旋回させると縁石に乗り上げずに曲がり道が生成される GT ● 曲がる時の背景の崩れが顕著に見られた ○ 大規模化すれば，モデルの表現力が上がり解消する可能性 GT モデルの大規模化の検証は以下において発表右折講演番号：2G5-OS-21e-02 タイトル：世界モデルにおけるモデルサイズに対するスケーリング則講演時間：6月7日(水) 15:50 ~ 16:10 8

RoboNetでの実験結果 ● 条件付けを追加することで損失がより小さくなる ○ フレーム条件 > フレーム+行動条件 ● 行動によってエンドエフェクタがGTと同じ方向に動いている ● 手先部分の予測が崩れる傾向がある生成結果 Predict GT 学習曲線 9

10.

行動条件付けとフレーム条件付け ● 条件付けを追加することで損失がより小さくなる ○ 条件なし > フレーム条件 > フレーム+行動条件 ● 行動データで条件づけることで，動画の潜在空間がよりdisentangleされていることが考えられる CARLAでの学習曲線どのような行動条件づけ手法がモデル性能を向上させるのか既存の世界モデルの条件づけ手法を検証する 10

11.

既存の世界モデルの比較複数の研究を調査した結果，他に２つの条件付け方法が採用されていたモデル特徴抽出機自己回帰モデル事前学習行動条件付け損失 VideoGPT [Yan et al., 2021] VQVAE Transformer あり（Layer Normalization層） Cross Entropy FitVid [Babaeizadeh, 2021] NVAE LSTM なし観測とのconcatination Cross Entropy Dreamer V2 [Hafner et al., 2020] CNN+VQ GRU なし観測とのsummation Recon (MSE) + KL Divergence IRIS [Michel et al., 2022] VQVAE Transformer あり観測とのconcatination 次の時刻のトークンとのCross Entropy TransDreamer [Chen et al., 2022] CNN+VQ Transformer なし観測とのsummation Recon (MSE) + KL Divergence TECO [Yan et al., 2022] VQGAN Transformer あり観測とのconcatination Recon (MSE) + KL Divergence 11

12.

３つの条件付け手法（特徴抽出器（学習済み））（自己回帰モデル） ① Layer Norm 再構成 VQ-VAE Decoder VideoGPT 潜在表現系列 VQ-VAE Encoder ・・・入力動画 ② Concat 32*32*(4+z) 32*32*4 Tiling Concat 4 action action 4 ©︎MATSUO INSTITUTE, INC. ③ Add with MLP 32*32*z 32*32*z FC z Tile Sum 12

13.

３つの条件付け手法での学習曲線３つの異なる条件付け手法を用いてCARLAデータセットでの学習を行った ● どの手法でも行動条件づけを行わない場合よりも損失は小さくなる ● Layer Normによる条件付けが最も損失が小さい条件付け手法 CE loss MLP 2.812 Concat 2.800 Layer norm 2.775 w/o action 3.097 13

14.

まとめ・今後の展望まとめ ● ● ● Conditional layer normalizationを用いてVideoGPTに行動条件づけを行い，その効果を検証したフレーム，行動を条件づけることでGPTの損失が減少した既存の条件付け手法と比較して，本手法は最も損失が小さいことを確認した今後の展望 ● ● ● VQVAEによる特徴抽出における行動条件付けの効果の検証行動ではなく，天気などの静的条件での条件付けの検証大規模な世界モデルでの行動条件づけ手法の検証 ©︎MATSUO INSTITUTE, INC. 14

15.

参考文献 ● ● ● ● ● ● ● De Vries, Harm, et al. "Modulating early visual processing by language." Advances in Neural Information Processing Systems 30 (2017). Yan, Wilson, et al. "Videogpt: Video generation using vq-vae and transformers." arXiv preprint arXiv:2104.10157 (2021). Babaeizadeh, Mohammad, et al. "Fitvid: Overfitting in pixel-level video prediction." arXiv preprint arXiv:2106.13195 (2021). Hafner, Danijar, et al. "Mastering atari with discrete world models." arXiv preprint arXiv:2010.02193 (2020). Micheli, Vincent, Eloi Alonso, and François Fleuret. "Transformers are sample efficient world models." arXiv preprint arXiv:2209.00588 (2022). Chen, Chang, et al. "Transdreamer: Reinforcement learning with transformer world models." arXiv preprint arXiv:2202.09481 (2022). Yan, Wilson, et al. "Temporally Consistent Video Transformer for Long-Term Video Prediction." arXiv preprint arXiv:2210.02396 (2022). ©︎MATSUO INSTITUTE, INC. 15