MakotoSato_WMScaling_slide

3.7K Views

October 23, 23

スライド概要

深層学習の発展に伴い、コンピュータビジョンや自然言語処理の分野において、大幅な性能向上が見られる。これらの発展において、モデルサイズ、データセットサイズ、学習に使用する計算量に対して、モデルの性能が指数関数的に変化することを示すスケーリング則が大きな役割を果たしている。これらのスケーリング則は、画像分類、画像生成、自然言語処理タスクなど、様々なタスクで成立することが報告されている。しかし、スケーリング則が長期的な予測を伴うタスクに有効であることはまだ確認されていない。本研究では、モデルサイズの観点から世界モデルにスケーリング則が成立することを調査した。CARLAデータセットを用いた行動条件づけ動画予測タスクにおいて2つの世界モデルのモデルサイズを大規模化する実験を行い、オートエンコーダの大規模化を含む場合に損失関数が指数関数的に減少し、スケーリング則が成り立つことを検証した。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

世界モデルにおけるモデルサイズに対するスケーリング則の検証 奈良先端科学技術大学院大学 / 株式会社松尾研究所 発表者:佐藤誠人 ©︎MATSUO INSTITUTE, INC.

2.

基盤モデルの台頭 2018〜2023年にかけて大量の基盤モデルが開発 各種タスクへ応用され,現在でも多くのサービスが提供開始 e.g. ) ChatGPT, BingAI, Bard 引用元)A Survey of Large Language Models ©︎MATSUO INSTITUTE, INC. 引用元)On the Opportunities and Risks of Foundation Models (一部改変) 2

3.

大規模言語モデルにおけるスケーリング則 Transformerをベースとした言語モデルの性能(テスト損失)はモデルサイズN・デ ータセットサイズD・計算量Cについてシンプルなべき乗則に従う [Kaplan et al., 2020] [Henighan et al., 2020] モデル性能の 向上 引用元)Scaling Laws for Neural Language Models (一部改変) ©︎MATSUO INSTITUTE, INC. 3

4.

各ドメインおけるスケーリング則 画像分類・画像生成タスク,転移学習,強化学習においても大規模化による スケーリング則が検証されている Machine Translation Speech Image Modeling Object Recognition 大規模なモデルは小規模なものよりも高い性能を発揮することが知られ, 小規模なものにはない新しい能力が現れることがある スケーリングの理解は,深層学習の将来にとって重要である [Ganguli et al., 2022] ©︎MATSUO INSTITUTE, INC. 4

5.

世界モデルにおけるモデルサイズのスケーリング則 概要 ● 既存の世界モデルのパラメータ数を変化させ,大規模言語モデルに対して 確認されるスケーリング則を検証 目的 ● 世界モデルのモデルサイズを大規模化することで,スケーリング則が見られ ることを検証し,小規模なものにはない新たな能力を発掘 ● 既存のアーキテクチャでの世界モデルの限界を把握 ©︎MATSUO INSTITUTE, INC. 5

6.

今回検討した世界モデルと分類 DreamerV2(左)とVideoGPT(右)のアーキテクチャ At-2 At-1 At-1 At 自己回帰 モデル At 自己回帰モデル 自己回帰 モデル flatten 特徴抽出器 自己回帰モデル 年 分類 事前学習 行動 損失 Dreamer V2 2021 Full latent CNN+VQ GRU なし あり MSE VideoGPT 2021 Token VQ-VAE Image-GPT あり なし Cross entropy ※他にFitVid, Latent Video Transformer, DriveGANなど ©︎MATSUO INSTITUTE, INC. 6

7.

スケーリング則検証に使用したデータセットとタスク 使用データセット ● CARLAシミュレータを用いて収集された動画データセットを使用 データセット本数:18000本 動画長:80フレーム フレームレート: 5 FPS 総時間:約80時間 検証タスク ● 過去の画像Xt-n,...,Xtとエージェントの行動At-n,...,At,At+1を元に将来の画像を予測 行動 At= vt = (vt,x ,vt,y ) : 速度 ωt = (ω t,x ,ωt,y) : 角速 度 Xt-n,...,Xt ©︎MATSUO INSTITUTE, INC. Xt+1 Xt+m 7

8.

大規模化における変更パラメータ 各種世界モデルのモデルサイズの大規模化 DreamerV2のスケーリング VideoGPTのスケーリング ImageGPT VQ-VAE 引 用 元 ) Mastering Atari with Discrete World Models, VideoGPT: Video Generation using VQ-VAE and Transf ormers (一 部 改 変 ) ©︎MATSUO INSTITUTE, INC. 8

9.

学習・検証時の設定 DreamerV2の学習・検証における設定 入力画像:64x64 損失関数:再構成誤差関数 + KL損失関数 エンコード:CNNと離散化により32x32の特徴量へ埋め込み 学習時:動画(80フレーム)を入力として各ステップ次トークンを予測 検証時:入力動画(3フレーム)と行動系列から将来77フレームを予測 ©︎MATSUO INSTITUTE, INC. 9

10.

DreamerV2のスケーリング則検証結果 DreamerV2に対するモデルサイズスケーリング ● DreamerV2に対するスケーリング則が次式で表される Ground Truth Predicted モデルサイズを0.09M〜158Mの範囲で大規模化した結果,テスト損失が減少 し,DreamerV2に対するモデルサイズスケーリング則を確認 ©︎MATSUO INSTITUTE, INC. 10

11.

実験考察 DreamerV2による動画予測 Ground truth 0.09Mモデル 0.44Mモデル 3.5Mモデル 42Mモデル 158Mモデル 考察 ● ● ● モデルサイズを大規模化することで予測結果が高精細になる モデルサイズを大規模化することで対向車が出現する 走行中の背景の向き(太陽の方角など)も正確に予測可能になる モデルサイズを大きくするほど,動画予測モデルとしての性能は向上し,データにない 状態までを予測によって補完するようになる ©︎MATSUO INSTITUTE, INC. 11

12.

学習・検証時の設定 VideoGPTの学習・検証における設定 入力画像:128x128 損失関数:交差エントロピー誤差関数 エンコード:VQ-VAEを使用した離散的特徴量への埋め込み (Kinetics-600データセットを使用した事前学習済みモ デルを使用) 学習時:動画(16フレーム)を入力とし初め3フレームからトークン列を予測 検証時:入力動画(3フレーム)と行動系列から将来16フレームを予測 ©︎MATSUO INSTITUTE, INC. 12

13.

VideoGPTのスケーリング則検証結果 VideoGPTに対するモデルサイズスケーリング ● VideoGPTに対するスケーリング則が次式で表される Ground Truth Predicted モデルサイズを39.4M〜609Mの範囲で大規模化した結果,テスト損失が減少 し,VideoGPTに対するモデルサイズスケーリング則を確認 ©︎MATSUO INSTITUTE, INC. 13

14.

実験考察 VideoGPTによる動画予測 Ground truth 39.4Mモデル 44.5Mモデル 53.9Mモデル 72.5Mモデル 109Mモデル 179Mモデル 考察 ● ● ● モデルを大規模化するにつれて,遠くのNPCがより精細に映っている 全てのモデル間で中心に映るエージェントの予測性能に変化が見られない 全てのモデル間で背景に映る木々に歪みが生じる モデルサイズを大きくするほど,動画予測モデルとしての性能は向上するが,179Mま でのモデルでは限界が存在する ©︎MATSUO INSTITUTE, INC. 14

15.

大規模VideoGPT(609M)による推論結果の例:カーブで右に旋回 行動による観測の変化を学習し、見えない領域も想像した予測が可能に t=0 真値 再構成 t=3 t=6 背景が正しく予測されている ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 予測 t=9 t = 12 条件フレームにない物体の想像 15

16.

大規模VideoGPT(609M)による推論結果の例:直進+反実仮想(右旋) 学習データにないような旋回をさせると新たに道が出現 真値 予測(直進) 反実仮想(右旋) ※反実仮想 直線道路において, 真値とは異なり,t=9 以降右に旋回するよ うな行動を条件付け た場合 t=0 t=6 t=9 転回と同時に曲がり角が生まれる ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO t = 12 t = 15 転回終了時には道の先まで開ける 16

17.

大規模VideoGPT(609M)による推論結果の例:直進+反実仮想(停止) 停止行動によってエージェントは減速するが完全には停止しない 真値 予測(直進) 反実仮想(停止) ※反実仮想 直線道路において, 真値とは異なり, t=9以降停止するよ うな行動を条件付け た場合 t=0 t=6 t=9 停止とともに減速しているがわずかに前進 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO t = 12 t = 15 対向車は運動し続ける 17

18.

まとめ・今後の研究課題 まとめ ● ● 言語モデルに成り立つことが確認されているモデルサイズに関するスケー リング則を複数の世界モデルに対して検証 自動運転シミュレータ上で収集された動画データセットを使用し,動画 予測タスクにおいてスケーリング則を確認 今後の課題 ● ● ● ● 大規模言語モデルに匹敵するBillion単位の大規模世界モデルの構築 複数のドメイン/タスクに対してスケーリング則の検証 動画解像度に対するスケーリングの検証 従来より提案される世界モデルに対する網羅的なスケーリング則の検証 ©︎MATSUO INSTITUTE, INC. 18

19.

参考文献 ● ● ● ● ● Dosovitskiy, A., Ros, G., Codevilla, F., Lopez, A., and Koltun, V. “CARLA: An Open Urban Driving Simulator”, in Proceedings of the 1st Annual Conference on Robot Learning, pp. 1–16 (2017) Henighan, T., Kaplan, J., Katz, M., Chen, M., Hesse, C., Jackson, J., Jun, H., Brown, T. B., Dhariwal, P., Gray, S., et al. “Scaling laws for autoregressive generative modeling”, arXiv preprint arXiv:2010.14701 (2020) Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., and Amodei, D. “Scaling laws for neural language models” arXiv preprint arXiv:2001.08361 (2020) Micheli, V., Alonso, E., and Fleuret, F. “Transformers are sample efficient world models”, arXiv preprint arXiv:2209.00588 (2022) Yan, W., Zhang, Y., Abbeel, P., and Srinivas, A. “Videogpt: Video generation using vqvae and transformers”, arXiv preprint arXiv:2104.10157 (2021) 19 ©︎MATSUO INSTITUTE, INC.