Negishi_Scaling Laws_slide.pptx

5K Views

October 23, 23

#VideoGPT #scaling law #dataset size #world model research #machine learning

スライド概要

過去10年ほどで，深層学習技術は自然言語処理や画像処理分野を含む様々な分野で大きく成功してきた．この成功の背景には，大規模な計算資源で大規模なモデルの学習が可能になったことがある．実際近年の多くの研究において，言語モデリングや画像生成を含む様々な生成タスクで，Transformerを用いた大規模モデルが性能を発揮している．そのような大規模モデルを効率的に学習するためには膨大なデータが必要であり，多くの分野で大規模データセットの構築が進められている．しかし，CARLAなどのシミュレータ環境やRoboNetなどのデータセットの整備の進展にも拘わらず，環境の空間的・時間的表現の獲得を目的とする世界モデルのデータセットサイズに対するスケーリングについては十分に研究されていない．そこで本研究では，世界モデルのデータセットサイズに対するスケーリング則を実験的に検証した．モデルにはVideoGPTを使用し，データセットはCARLAシミュレータで作成した．さらに我々は，パラメータ数が107のオーダー以上で計算量が制限される場合は，計算量をデータセットサイズの拡大に使うことが効率的であることも確認した．

weblab

@weblab

スライド一覧

weblab

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

iwasawa_SLTH_slide

weblab 15.6K

yamatsuta_jsai_slide

weblab 9.4K

nakano_intrinsic_slide

weblab 8.4K

takashiro_daikibo_slide

weblab 8K

oshima_iterative

weblab 7.4K

KoheiHiraki_Transformer_slide_JSAI2023

weblab 7.2K

各ページのテキスト

VideoGPTのデータセットサイズに関するスケーリング則東京大学 / 株式会社松尾研究所根岸優大 ©︎MATSUO INSTITUTE, INC.

Agenda 1 背景 2 収束するまで訓練する場合のスケーリング 3 一定時間訓練する場合のスケーリング 4 世界モデル研究への提言 5 まとめ ©︎MATSUO INSTITUTE, INC. 2

1. 背景 ©︎MATSUO INSTITUTE, INC.

基盤モデルのデータセットサイズに関するスケーリング則 Transformerをベースとする基盤モデルのテスト損失Lは、モデルサイズN・データセットサイズD・計算量Cについてのべき乗則に従って減少する [Kaplan et al., 2020] [Henighan et al., 2020] 言語モデルのデータセットサイズに関するスケーリング則 [Kaplan et al., 2020] 画像生成モデルのデータセットサイズに関するスケーリング則[Henighan et al., 2020] ©︎MATSUO INSTITUTE, INC. 4

世界モデル研究に使われるデータセットのサイズ世界モデルの研究用データセットのサイズは他ドメインと比較して小さい VideoGPT[Yan et al., 2021]とIRIS[Micheli et al., 2022] で使われているデータセットの推定サイズデータセット名推定データセットサイズ(トークン数)[×10^9] BAIR 0.369 VizDoom 0.655 UCF101 9.953 Atari100k 0.832 ● 世界モデル研究で用いられるデータセットのサイズは10^8~10^10トークン ● 他ドメインにおいて、データセットサイズが~10^11程度までスケーリング則が検証済[Kaplan et al., 2020] [Henighan et al., 2020]。この結果を受けて大規模化が進んでいる。例えばGPT-3は3×10^12トークンで訓練 → 世界モデルはデータセットサイズの大規模化の恩恵を受けられるか？ ©︎MATSUO INSTITUTE, INC. 5

VideoGPTによる動画予測 VQ-VAEで埋め込んだ先の潜在空間で、Transformerによる自己回帰を行う [Yan et al., 2021] 訓練: Step1: VQ-VAEのパラメータとCodebookを動画の再構成タスクで学習することで、動画を時空間方向に圧縮して離散潜在変数に埋め込めるように Step2: 訓練済みVQ-VAEで動画データセットを潜在変数空間に埋め込み、その潜在変数を入出力としてTransformerを訓練(初期フレームで条件付けする場合は、初期フレームをResNet34で埋め込み、Cross Attentionで参照) ©︎MATSUO INSTITUTE, INC. 推論(動画予測): 潜在変数空間で自己回帰的に出力 6

2. 収束するまで訓練する場合のスケーリング ©︎MATSUO INSTITUTE, INC.

タスクの概要目標 CARLAデータにおいて、最初の3フレームから16フレームを予測する VQ-VAEの訓練 Kinetics-600データセットを用いて、16x128x128の動画を8x32x32に埋め込むように訓練されたVQ-VAEを用いる[Yan et al., 2021] GPTの訓練 CARLAデータ(16x256x256の動画)を8x32x32に埋め込み、潜在変数空間でトークンの系列を生成するようにGPTを訓練。この際、最初の3フレームで条件づける ©︎MATSUO INSTITUTE, INC. [Dosovitskiy et al., 2017] 8

実験設定 4つのモデルサイズと5つのデータセットサイズで収束するまで訓練モデル: データセット: GPTの層の数 GPTの隠れ層の次元モデルサイズ[×10^6] 2 48 0.168 4 96 0.670 8 192 4.0 16 384 29.3 Video数データセットサイズ(トークン数)[×10^9] 150 0.080 476 0.254 1500 0.799 4744 2.526 15000 7.987 ©︎MATSUO INSTITUTE, INC. 9

10.

収束後のテスト損失とデータセットサイズの関係モデルサイズが大きいほど、データセットサイズ増大の恩恵を受ける結果小さいモデルサイズほど、小さいデータセットサイズで性能向上が止まる( 他ドメインの先行研究と同様の結果) 考察モデルの表現能力が小さいと、小さいデータセットを表現するだけで限界で、データセットサイズを増やすことによるサンプルの多様化の恩恵が小さい？ ©︎MATSUO INSTITUTE, INC. 10

11.

12.

13.

実験設定各モデルサイズにおいて、計算量を統一して訓練現実の問題では、計算量が有限という制約の下で訓練を行う。計算量を制限したとき、データセットサイズと損失の関係はどうなるか？あるモデルの訓練の計算量は、データセットサイズDとエポック数Eの積に比例する。D×Eがおよそ一定になるようにして訓練を行うデータセットサイズ(トークン数)[×10^9] エポック数 0.080 100 0.254 32 0.799 10 2.526 3 7.987 1 ©︎MATSUO INSTITUTE, INC. 13

14.

計算量が有限の場合のテスト損失とデータセットサイズの関係モデルサイズが大きいほど、データセットサイズ増大の恩恵を受ける結果モデルサイズが大きいときは、データサイズを大きくする方が損失が小さくなる考察十分に大きなモデルを訓練する場合は、限られた計算量をデータセットサイズの拡大に使うほうがよい注意モデルごとの計算量は統一していない ©︎MATSUO INSTITUTE, INC. 14

15.

16.

モデルの表現能力を活かしきれるデータセットサイズの検討現状の世界モデルは小さ過ぎるデータセットでモデルを訓練・評価している収束後のテスト損失 VideoGPT 左図で2番目に大きいモデルをBAIRとVizDoomで訓練 → 10^10~10^11くらいのデータセットサイズが必要左図で1番大きいモデルをUCF101で訓練 → 10^11~10^12くらいのデータセットサイズが必要 IRIS 左図で4番目に大きいモデルをAtari100kで訓練 → 10^9~10^10くらいのデータセットサイズが必要 BAIR VizDoom Atari 100k UCF101 ©︎MATSUO INSTITUTE, INC. 16

17.

18.

結論まとめ • • • VideoGPTを収束するまで訓練することで、データセットサイズについてのスケーリング則が得られた計算量の制限がある場合も、十分に大きなモデルでは、データセットサイズの巨大化によって損失関数が効率的に下がることが分かった既存の世界モデル研究に用いられるデータセットサイズはモデルの表現能力に対して小さすぎると考察した今後の課題 • • 計算量の制限がある場合、モデルサイズとデータセットサイズとエポック数をどのような値に設定することで効率的に訓練できるか獲得した環境の表現を用いて強化学習を行うモデルにおいて、強化学習で獲得される方策の性能はどのようにスケールするか ©︎MATSUO INSTITUTE, INC. 18

19.

参考文献 • • • • • Dosovitskiy, A., Ros, G., Codevilla, F., Lopez, A., and Koltun, V. “CARLA: An Open Urban Driving Simulator”, in Proceedings of the 1st Annual Conference on Robot Learning, pp. 1–16 (2017) Henighan, T., Kaplan, J., Katz, M., Chen, M., Hesse, C., Jackson, J., Jun, H., Brown, T. B., Dhariwal, P., Gray, S., et al. “Scaling laws for autoregressive generative modeling”, arXiv preprint arXiv:2010.14701 (2020) Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., and Amodei, D. “Scaling laws for neural language models” arXiv preprint arXiv:2001.08361 (2020) Micheli, V., Alonso, E., and Fleuret, F. “Transformers are sample efficient world models”, arXiv preprint arXiv:2209.00588 (2022) Yan, W., Zhang, Y., Abbeel, P., and Srinivas, A. “Videogpt: Video generation using vq-vae and transformers”, arXiv preprint arXiv:2104.10157 (2021) ©︎MATSUO INSTITUTE, INC. 19

20.

補足：詳細な実験設定モデル: sparse attention 事前訓練: フレーム数16, 解像度128x128 CARLA: フレーム数16, 解像度256x256 損失関数: Cross Entropy Loss バッチサイズ: 4 学習率: 3.0 * 10^-4 head数: 3 optimizer: Adam (betas = (0.9, 0.999)) ©︎MATSUO INSTITUTE, INC. 20

21.

補足：データセットサイズ増大の効果の定性的検証モデルサイズが最大の時、データ数が大きい方が再構成が上手くいくデータセットサイズ：8.0 * 10^7 トークンデータセットサイズ：8.0 * 10^9 トークン ©︎MATSUO INSTITUTE, INC. 21

22.

補足：収束後のFVDとデータセットサイズの関係 FVDは、データセットサイズに対するスケーリングがあまり見られなかった結果どのモデルサイズでも、データセットサイズの変化によるFVDの大きな変化はなかった考察 FVDは、各々のサンプルとその再構成誤差を見ているわけではない。従って、予測が間違っていたとしても、 decodeしたものの品質が悪いとは限らないのでは？ ©︎MATSUO INSTITUTE, INC. 22

23.