3.7K Views
October 23, 23
スライド概要
世界モデルは外界の観測をもとに外部構造を獲得するモデルのことであり,エージェントの行動に伴って変化する外界の将来の状態を予想することができる.近年の生成モデルや言語モデルの進歩はマルチモーダルな世界モデルの発展に貢献しており,自動運転やロボティクスなどの多くのドメインでの応用が期待されている.映像予測は,高精細さと長期予測という点で進展した分野であり,時間的表現の獲得を目的とする世界モデルの応用が考えられる.モデルアーキテクチャの例として,再構成タスクを学習することによって観測の潜在的な表現を学習するEncode-Decoderベースの潜在変数モデルと潜在変数列を予想するTransformerベースの自己回帰モデルの組み合わせが良い性能を発揮している.本研究では,VQVAEとImage-GPTを用いたVideoGPTと呼ばれる動画予測モデルに行動条件付けを導入することで拡張した.CARLAとRoboNetを用いた検証の結果,条件付けなしのモデルと比較して性能が向上した.
行動条件付けVideoGPTの構築と検証 東京大学 / 株式会社松尾研究所 発表者:田畑浩大 ©︎MATSUO INSTITUTE, INC.
世界モデルと行動 世界モデルとは 「エージェントを取り巻く環境・身体など様々な要素を学習によって内部的に構 築する枠組み」 https://www.ai-gakkai.or.jp/jsai2023/os#os-21 エージェントの行動が世界にどういう影響をもたらすかの因果(ルール)を獲得 行動:自転車をこぐ 行動:バットを振る エージェントの行動を条件づけた世界モデルを学習する ©︎MATSUO INSTITUTE, INC. 2
世界モデルとしてのVideoGPT VQ-VAEで動画の潜在表現を獲得,Transformerによる自己回帰を行う 再構成 VQ-VAE Decoder 潜在表現系 列 VideoGPT VQ-VAE Encoder ・・・ 入力動画 (特徴抽出器 (学習済み)) (自己回帰モデル) [Yan+ 2021] 高解像度な画像を低次元の潜在変数に圧縮することによってサンプリング速度と計算要 件を向上させた動画予測モデル 観測の潜在表現がどのように時間発展するかを学習する世界モデル ©︎MATSUO INSTITUTE, INC. 3
VideoGPTへの行動条件付けの導入 VideoGPTは実際に行動条件付けを行った際の効果に関する詳細な検討は行われていない 目的:VideoGPTに行動を条件づけてその効果を検証する GPTのLayer Normalizationにconditional layer normalization[Vries+, 2017]を用いる ● actionトークン2つをVQ-VAEの1つのト ークンに対応づけた ○ ● VQVAEトークンとactionデータのト ークン数を一致させる actionデータを線形NN(FC)で変換した密 ベクトルをβとγとして使用 ©︎MATSUO INSTITUTE, INC. 4
フレームの条件付け ● Frame条件付けでは,16フレーム中の初めの3フレームを使用 ● Multi Head Attentionを追加し,Key, Valueとしてフレーム条件付けを行う 初めの3frameで条件付け ©︎MATSUO INSTITUTE, INC. 5
実験手法 VQ-VAEの訓練 Kinetics-600データセットを用いて,16x128x128の動画を8x32x32に埋め込むように訓練 [Yan+ 2021] GPTの訓練 VQ-VAEを用いて取得したトークンの系列を生成するようにGPTを訓練 損失関数は交差エントロピー誤差を用いた 2つのデータセットについて16 framesごとに区切り訓練 ● CARLAデータセット CARLA [Dosovitskiy, 2017] 15M frames (166K episodes) 行動:速度,角速度 1エピソードあたり:15-30 frames (2-4 sec) ● RoboNetデータセット 1.2M frames (15K episodes) 1エピソードあたり:80 frames (20 sec) 行動:エンドエフェクタの空間 座標と roll 及びグリッパの開閉 ©︎MATSUO INSTITUTE, INC. RoboNet [Dasari, 2019] 6
CARLAでの実験結果 ● 条件付けを追加することで損失がより小さくなる ○ 条件なし > フレーム条件 > フレーム+行動条件 ● 行動によって背景が正しい方向に動いていることが確認できる ● 左右などの細かいカーブの際に動画が崩れる傾向がある 生成結果 Predict GT 学習曲線 7
CARLAでの推論結果の詳細 加減速や旋回の表現の獲得 減速 ● 旋回や加速に関する定性的な結果は確認できる ○ 初速がある状態で,速度=0にするとブレー キがかかる ○ 直進道路で旋回させると縁石に乗り上げず に曲がり道が生成される GT ● 曲がる時の背景の崩れが顕著に見られた ○ 大規模化すれば,モデルの表現力が上がり 解消する可能性 GT モデルの大規模化の検証は以下において発表 右折 講演番号:2G5-OS-21e-02 タイトル:世界モデルにおけるモデルサイズに対するスケ ーリング則 講演時間:6月7日(水) 15:50 ~ 16:10 8
RoboNetでの実験結果 ● 条件付けを追加することで損失がより小さくなる ○ フレーム条件 > フレーム+行動条件 ● 行動によってエンドエフェクタがGTと同じ方向に動いている ● 手先部分の予測が崩れる傾向がある 生成結果 Predict GT 学習曲線 9
行動条件付けとフレーム条件付け ● 条件付けを追加することで損失がより小さくなる ○ 条件なし > フレーム条件 > フレーム+行動条件 ● 行動データで条件づけることで,動画の潜在空間がよりdisentangleされ ていることが考えられる CARLAでの学習曲線 どのような行動条件づけ手法が モデル性能を向上させるのか 既存の世界モデルの条件づけ手 法を検証する 10
既存の世界モデルの比較 複数の研究を調査した結果,他に2つの条件付け方法が採用されていた モデル 特徴抽出機 自己回帰モデル 事前学習 行動条件付け 損失 VideoGPT [Yan et al., 2021] VQVAE Transformer あり (Layer Normalization層) Cross Entropy FitVid [Babaeizadeh, 2021] NVAE LSTM なし 観測とのconcatination Cross Entropy Dreamer V2 [Hafner et al., 2020] CNN+VQ GRU なし 観測とのsummation Recon (MSE) + KL Divergence IRIS [Michel et al., 2022] VQVAE Transformer あり 観測とのconcatination 次の時刻のトークン とのCross Entropy TransDreamer [Chen et al., 2022] CNN+VQ Transformer なし 観測とのsummation Recon (MSE) + KL Divergence TECO [Yan et al., 2022] VQGAN Transformer あり 観測とのconcatination Recon (MSE) + KL Divergence 11
3つの条件付け手法 (特徴抽出器 (学習済み)) (自己回帰モデル) ① Layer Norm 再構成 VQ-VAE Decoder VideoGPT 潜在表現系列 VQ-VAE Encoder ・・・ 入力動画 ② Concat 32*32*(4+z) 32*32*4 Tiling Concat 4 action action 4 ©︎MATSUO INSTITUTE, INC. ③ Add with MLP 32*32*z 32*32*z FC z Tile Sum 12
3つの条件付け手法での学習曲線 3つの異なる条件付け手法を用いてCARLAデータセットでの学習を行った ● どの手法でも行動条件づけ を行わない場合よりも損失 は小さくなる ● Layer Normによる条件付け が最も損失が小さい 条件付け手法 CE loss MLP 2.812 Concat 2.800 Layer norm 2.775 w/o action 3.097 13
まとめ・今後の展望 まとめ ● ● ● Conditional layer normalizationを用いてVideoGPTに行動条件づけを行い, その効果を検証した フレーム,行動を条件づけることでGPTの損失が減少した 既存の条件付け手法と比較して,本手法は最も損失が小さいことを確認し た 今後の展望 ● ● ● VQVAEによる特徴抽出における行動条件付けの効果の検証 行動ではなく,天気などの静的条件での条件付けの検証 大規模な世界モデルでの行動条件づけ手法の検証 ©︎MATSUO INSTITUTE, INC. 14
参考文献 ● ● ● ● ● ● ● De Vries, Harm, et al. "Modulating early visual processing by language." Advances in Neural Information Processing Systems 30 (2017). Yan, Wilson, et al. "Videogpt: Video generation using vq-vae and transformers." arXiv preprint arXiv:2104.10157 (2021). Babaeizadeh, Mohammad, et al. "Fitvid: Overfitting in pixel-level video prediction." arXiv preprint arXiv:2106.13195 (2021). Hafner, Danijar, et al. "Mastering atari with discrete world models." arXiv preprint arXiv:2010.02193 (2020). Micheli, Vincent, Eloi Alonso, and François Fleuret. "Transformers are sample efficient world models." arXiv preprint arXiv:2209.00588 (2022). Chen, Chang, et al. "Transdreamer: Reinforcement learning with transformer world models." arXiv preprint arXiv:2202.09481 (2022). Yan, Wilson, et al. "Temporally Consistent Video Transformer for Long-Term Video Prediction." arXiv preprint arXiv:2210.02396 (2022). ©︎MATSUO INSTITUTE, INC. 15