MakotoSato_WMScaling_slide

5.3K Views

October 23, 23

#World Models #Large-Scale Language Models #Scaling Laws #DreamerV2 #VideoGPT

スライド概要

深層学習の発展に伴い、コンピュータビジョンや自然言語処理の分野において、大幅な性能向上が見られる。これらの発展において、モデルサイズ、データセットサイズ、学習に使用する計算量に対して、モデルの性能が指数関数的に変化することを示すスケーリング則が大きな役割を果たしている。これらのスケーリング則は、画像分類、画像生成、自然言語処理タスクなど、様々なタスクで成立することが報告されている。しかし、スケーリング則が長期的な予測を伴うタスクに有効であることはまだ確認されていない。本研究では、モデルサイズの観点から世界モデルにスケーリング則が成立することを調査した。CARLAデータセットを用いた行動条件づけ動画予測タスクにおいて2つの世界モデルのモデルサイズを大規模化する実験を行い、オートエンコーダの大規模化を含む場合に損失関数が指数関数的に減少し、スケーリング則が成り立つことを検証した。

weblab

@weblab

スライド一覧

weblab

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

iwasawa_SLTH_slide

weblab 14.4K

yamatsuta_jsai_slide

weblab 8.6K

nakano_intrinsic_slide

weblab 7.8K

takashiro_daikibo_slide

weblab 7.3K

KoheiHiraki_Transformer_slide_JSAI2023

weblab 6.7K

oshima_iterative

weblab 6.3K

各ページのテキスト

世界モデルにおけるモデルサイズに対するスケーリング則の検証奈良先端科学技術大学院大学 / 株式会社松尾研究所発表者：佐藤誠人 ©︎MATSUO INSTITUTE, INC.

基盤モデルの台頭 2018〜2023年にかけて大量の基盤モデルが開発各種タスクへ応用され，現在でも多くのサービスが提供開始 e.g. ) ChatGPT, BingAI, Bard 引用元）A Survey of Large Language Models ©︎MATSUO INSTITUTE, INC. 引用元）On the Opportunities and Risks of Foundation Models (一部改変) 2

大規模言語モデルにおけるスケーリング則 Transformerをベースとした言語モデルの性能(テスト損失)はモデルサイズN・データセットサイズD・計算量Cについてシンプルなべき乗則に従う [Kaplan et al., 2020] [Henighan et al., 2020] モデル性能の向上引用元）Scaling Laws for Neural Language Models (一部改変) ©︎MATSUO INSTITUTE, INC. 3

各ドメインおけるスケーリング則画像分類・画像生成タスク，転移学習，強化学習においても大規模化によるスケーリング則が検証されている Machine Translation Speech Image Modeling Object Recognition 大規模なモデルは小規模なものよりも高い性能を発揮することが知られ，小規模なものにはない新しい能力が現れることがあるスケーリングの理解は，深層学習の将来にとって重要である [Ganguli et al., 2022] ©︎MATSUO INSTITUTE, INC. 4

世界モデルにおけるモデルサイズのスケーリング則概要 ● 既存の世界モデルのパラメータ数を変化させ，大規模言語モデルに対して確認されるスケーリング則を検証目的 ● 世界モデルのモデルサイズを大規模化することで，スケーリング則が見られることを検証し，小規模なものにはない新たな能力を発掘 ● 既存のアーキテクチャでの世界モデルの限界を把握 ©︎MATSUO INSTITUTE, INC. 5

今回検討した世界モデルと分類 DreamerV2(左)とVideoGPT(右)のアーキテクチャ At-2 At-1 At-1 At 自己回帰モデル At 自己回帰モデル自己回帰モデル flatten 特徴抽出器自己回帰モデル年分類事前学習行動損失 Dreamer V2 2021 Full latent CNN+VQ GRU なしあり MSE VideoGPT 2021 Token VQ-VAE Image-GPT ありなし Cross entropy ※他にFitVid, Latent Video Transformer, DriveGANなど ©︎MATSUO INSTITUTE, INC. 6

スケーリング則検証に使用したデータセットとタスク使用データセット ● CARLAシミュレータを用いて収集された動画データセットを使用データセット本数：18000本動画長：80フレームフレームレート: 5 FPS 総時間：約80時間検証タスク ● 過去の画像Xt-n,...,Xtとエージェントの行動At-n,...,At,At+1を元に将来の画像を予測行動 At= vt = (vt,x ,vt,y ) : 速度 ωt = (ω t,x ,ωt,y) : 角速度 Xt-n,...,Xt ©︎MATSUO INSTITUTE, INC. Xt+1 Xt+m 7

大規模化における変更パラメータ各種世界モデルのモデルサイズの大規模化 DreamerV2のスケーリング VideoGPTのスケーリング ImageGPT VQ-VAE 引用元） Mastering Atari with Discrete World Models, VideoGPT: Video Generation using VQ-VAE and Transf ormers (一部改変 ) ©︎MATSUO INSTITUTE, INC. 8

学習・検証時の設定 DreamerV2の学習・検証における設定入力画像：64x64 損失関数：再構成誤差関数 + KL損失関数エンコード：CNNと離散化により32x32の特徴量へ埋め込み学習時：動画(80フレーム)を入力として各ステップ次トークンを予測検証時：入力動画(3フレーム)と行動系列から将来77フレームを予測 ©︎MATSUO INSTITUTE, INC. 9

10.

DreamerV2のスケーリング則検証結果 DreamerV2に対するモデルサイズスケーリング ● DreamerV2に対するスケーリング則が次式で表される Ground Truth Predicted モデルサイズを0.09M〜158Mの範囲で大規模化した結果，テスト損失が減少し，DreamerV2に対するモデルサイズスケーリング則を確認 ©︎MATSUO INSTITUTE, INC. 10

11.

実験考察 DreamerV2による動画予測 Ground truth 0.09Mモデル 0.44Mモデル 3.5Mモデル 42Mモデル 158Mモデル考察 ● ● ● モデルサイズを大規模化することで予測結果が高精細になるモデルサイズを大規模化することで対向車が出現する走行中の背景の向き(太陽の方角など)も正確に予測可能になるモデルサイズを大きくするほど，動画予測モデルとしての性能は向上し，データにない状態までを予測によって補完するようになる ©︎MATSUO INSTITUTE, INC. 11

12.

学習・検証時の設定 VideoGPTの学習・検証における設定入力画像：128x128 損失関数：交差エントロピー誤差関数エンコード：VQ-VAEを使用した離散的特徴量への埋め込み (Kinetics-600データセットを使用した事前学習済みモデルを使用) 学習時：動画(16フレーム)を入力とし初め3フレームからトークン列を予測検証時：入力動画(3フレーム)と行動系列から将来16フレームを予測 ©︎MATSUO INSTITUTE, INC. 12

13.

VideoGPTのスケーリング則検証結果 VideoGPTに対するモデルサイズスケーリング ● VideoGPTに対するスケーリング則が次式で表される Ground Truth Predicted モデルサイズを39.4M〜609Mの範囲で大規模化した結果，テスト損失が減少し，VideoGPTに対するモデルサイズスケーリング則を確認 ©︎MATSUO INSTITUTE, INC. 13

14.

実験考察 VideoGPTによる動画予測 Ground truth 39.4Mモデル 44.5Mモデル 53.9Mモデル 72.5Mモデル 109Mモデル 179Mモデル考察 ● ● ● モデルを大規模化するにつれて，遠くのNPCがより精細に映っている全てのモデル間で中心に映るエージェントの予測性能に変化が見られない全てのモデル間で背景に映る木々に歪みが生じるモデルサイズを大きくするほど，動画予測モデルとしての性能は向上するが，179Mまでのモデルでは限界が存在する ©︎MATSUO INSTITUTE, INC. 14

15.

大規模VideoGPT(609M)による推論結果の例：カーブで右に旋回行動による観測の変化を学習し、見えない領域も想像した予測が可能に t=0 真値再構成 t=3 t=6 背景が正しく予測されている ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 予測 t=9 t = 12 条件フレームにない物体の想像 15

16.

大規模VideoGPT(609M)による推論結果の例：直進＋反実仮想（右旋）学習データにないような旋回をさせると新たに道が出現真値予測（直進）反実仮想（右旋） ※反実仮想直線道路において，真値とは異なり，t=9 以降右に旋回するような行動を条件付けた場合 t=0 t=6 t=9 転回と同時に曲がり角が生まれる ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO t = 12 t = 15 転回終了時には道の先まで開ける 16

17.

大規模VideoGPT(609M)による推論結果の例：直進＋反実仮想（停止）停止行動によってエージェントは減速するが完全には停止しない真値予測（直進）反実仮想（停止） ※反実仮想直線道路において，真値とは異なり， t=9以降停止するような行動を条件付けた場合 t=0 t=6 t=9 停止とともに減速しているがわずかに前進 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO t = 12 t = 15 対向車は運動し続ける 17

18.

まとめ・今後の研究課題まとめ ● ● 言語モデルに成り立つことが確認されているモデルサイズに関するスケーリング則を複数の世界モデルに対して検証自動運転シミュレータ上で収集された動画データセットを使用し，動画予測タスクにおいてスケーリング則を確認今後の課題 ● ● ● ● 大規模言語モデルに匹敵するBillion単位の大規模世界モデルの構築複数のドメイン/タスクに対してスケーリング則の検証動画解像度に対するスケーリングの検証従来より提案される世界モデルに対する網羅的なスケーリング則の検証 ©︎MATSUO INSTITUTE, INC. 18

19.

参考文献 ● ● ● ● ● Dosovitskiy, A., Ros, G., Codevilla, F., Lopez, A., and Koltun, V. “CARLA: An Open Urban Driving Simulator”, in Proceedings of the 1st Annual Conference on Robot Learning, pp. 1–16 (2017) Henighan, T., Kaplan, J., Katz, M., Chen, M., Hesse, C., Jackson, J., Jun, H., Brown, T. B., Dhariwal, P., Gray, S., et al. “Scaling laws for autoregressive generative modeling”, arXiv preprint arXiv:2010.14701 (2020) Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., and Amodei, D. “Scaling laws for neural language models” arXiv preprint arXiv:2001.08361 (2020) Micheli, V., Alonso, E., and Fleuret, F. “Transformers are sample efficient world models”, arXiv preprint arXiv:2209.00588 (2022) Yan, W., Zhang, Y., Abbeel, P., and Srinivas, A. “Videogpt: Video generation using vqvae and transformers”, arXiv preprint arXiv:2104.10157 (2021) 19 ©︎MATSUO INSTITUTE, INC.

20.