3.4K Views
October 23, 23
スライド概要
過去10年ほどで,深層学習技術は自然言語処理や画像処理分野を含む様々な分野で大きく成功してきた.この成功の背景には,大規模な計算資源で大規模なモデルの学習が可能になったことがある.実際近年の多くの研究において,言語モデリングや画像生成を含む様々な生成タスクで,Transformerを用いた大規模モデルが性能を発揮している.そのような大規模モデルを効率的に学習するためには膨大なデータが必要であり,多くの分野で大規模データセットの構築が進められている.しかし,CARLAなどのシミュレータ環境やRoboNetなどのデータセットの整備の進展にも拘わらず,環境の空間的・時間的表現の獲得を目的とする世界モデルのデータセットサイズに対するスケーリングについては十分に研究されていない.そこで本研究では,世界モデルのデータセットサイズに対するスケーリング則を実験的に検証した.モデルにはVideoGPTを使用し,データセットはCARLAシミュレータで作成した.さらに我々は,パラメータ数が107のオーダー以上で計算量が制限される場合は,計算量をデータセットサイズの拡大に使うことが効率的であることも確認した.
VideoGPTのデータセットサイズに関するスケーリング則 東京大学 / 株式会社松尾研究所 根岸優大 ©︎MATSUO INSTITUTE, INC.
Agenda 1 背景 2 収束するまで訓練する場合のスケーリング 3 一定時間訓練する場合のスケーリング 4 世界モデル研究への提言 5 まとめ ©︎MATSUO INSTITUTE, INC. 2
1. 背景 ©︎MATSUO INSTITUTE, INC.
基盤モデルのデータセットサイズに関するスケーリング則 Transformerをベースとする基盤モデルのテスト損失Lは、モデルサイズN・デ ータセットサイズD・計算量Cについてのべき乗則に従って減少する [Kaplan et al., 2020] [Henighan et al., 2020] 言語モデルのデータセットサイズに関する スケーリング則 [Kaplan et al., 2020] 画像生成モデルのデータセットサイズに関する スケーリング則[Henighan et al., 2020] ©︎MATSUO INSTITUTE, INC. 4
世界モデル研究に使われるデータセットのサイズ 世界モデルの研究用データセットのサイズは他ドメインと比較して小さい VideoGPT[Yan et al., 2021]とIRIS[Micheli et al., 2022] で使われているデータセットの推定サイズ データセット名 推定データセットサイズ(トークン数)[×10^9] BAIR 0.369 VizDoom 0.655 UCF101 9.953 Atari100k 0.832 ● 世界モデル研究で用いられるデータセットのサイズは10^8~10^10トークン ● 他ドメインにおいて、データセットサイズが~10^11程度までスケーリング 則が検証済[Kaplan et al., 2020] [Henighan et al., 2020]。この結果を受けて 大規模化が進んでいる。例えばGPT-3は3×10^12トークンで訓練 → 世界モデルはデータセットサイズの大規模化の恩恵を受けられるか? ©︎MATSUO INSTITUTE, INC. 5
VideoGPTによる動画予測 VQ-VAEで埋め込んだ先の潜在空間で、Transformerによる自己回帰を行う [Yan et al., 2021] 訓練: Step1: VQ-VAEのパラメータとCodebookを動画の再構成タスクで学習することで、動 画を時空間方向に圧縮して離散潜在変数に埋め込めるように Step2: 訓練済みVQ-VAEで動画データセットを潜在変数空間に埋め込み、その潜在変数 を入出力としてTransformerを訓練(初期フレームで条件付けする場合は 、初期フ レームをResNet34で埋め込み、Cross Attentionで参照) ©︎MATSUO INSTITUTE, INC. 推論(動画予測): 潜在変数空間で自己回帰的に出力 6
2. 収束するまで訓練する場合のスケーリング ©︎MATSUO INSTITUTE, INC.
タスクの概要 目標 CARLAデータにおいて、最初の3フレームから16フレームを予測する VQ-VAEの訓練 Kinetics-600データセットを用いて、16x128x128の動画を8x32x32に埋め込むよ うに訓練されたVQ-VAEを用いる[Yan et al., 2021] GPTの訓練 CARLAデータ(16x256x256の動画)を8x32x32に埋め込み、潜在変数空間でトー クンの系列を生成するようにGPTを訓練。この際、最初の3フレームで条件づけ る ©︎MATSUO INSTITUTE, INC. [Dosovitskiy et al., 2017] 8
実験設定 4つのモデルサイズと5つのデータセットサイズで収束するまで訓練 モデル: データセット: GPTの層の数 GPTの隠れ層の次元 モデルサイズ[×10^6] 2 48 0.168 4 96 0.670 8 192 4.0 16 384 29.3 Video数 データセットサイズ(トークン数)[×10^9] 150 0.080 476 0.254 1500 0.799 4744 2.526 15000 7.987 ©︎MATSUO INSTITUTE, INC. 9
収束後のテスト損失とデータセットサイズの関係 モデルサイズが大きいほど、データセットサイズ増大の恩恵を受ける 結果 小さいモデルサイズほど、小さいデー タセットサイズで性能向上が止まる( 他ドメインの先行研究と同様の結果) 考察 モデルの表現能力が小さいと、小さい データセットを表現するだけで限界で 、データセットサイズを増やすことに よるサンプルの多様化の恩恵が小さい ? ©︎MATSUO INSTITUTE, INC. 10
べき乗則の検証 VideoGPTにおいてもデータセットサイズのスケーリング則が成立する フィッティング曲線の式 パラメータ ©︎MATSUO INSTITUTE, INC. 11
3. 一定時間訓練する場合のスケーリング ©︎MATSUO INSTITUTE, INC.
実験設定 各モデルサイズにおいて、計算量を統一して訓練 現実の問題では、計算量が有限という制約の下で訓練を行う。計算量を制限し たとき、データセットサイズと損失の関係はどうなるか? あるモデルの訓練の計算量は、データセットサイズDとエポック数Eの積に比 例する。D×Eがおよそ一定になるようにして訓練を行う データセットサイズ(トークン数)[×10^9] エポック数 0.080 100 0.254 32 0.799 10 2.526 3 7.987 1 ©︎MATSUO INSTITUTE, INC. 13
計算量が有限の場合のテスト損失とデータセットサイズの関係 モデルサイズが大きいほど、データセットサイズ増大の恩恵を受ける 結果 モデルサイズが大きいときは、データ サイズを大きくする方が損失が小さく なる 考察 十分に大きなモデルを訓練する場合は 、限られた計算量をデータセットサイ ズの拡大に使うほうがよい 注意 モデルごとの計算量は統一していない ©︎MATSUO INSTITUTE, INC. 14
4. 世界モデル研究への提言 ©︎MATSUO INSTITUTE, INC.
モデルの表現能力を活かしきれるデータセットサイズの検討 現状の世界モデルは小さ過ぎるデータセットでモデルを訓練・評価している 収束後のテスト損失 VideoGPT 左図で2番目に大きいモデルをBAIRとVizDoomで訓練 → 10^10~10^11くらいのデータセットサイズが必要 左図で1番大きいモデルをUCF101で訓練 → 10^11~10^12くらいのデータセットサイズが必要 IRIS 左図で4番目に大きいモデルをAtari100kで訓練 → 10^9~10^10くらいのデータセットサイズが必要 BAIR VizDoom Atari 100k UCF101 ©︎MATSUO INSTITUTE, INC. 16
5. 結論 ©︎MATSUO INSTITUTE, INC.
結論 まとめ • • • VideoGPTを収束するまで訓練することで、データセットサイズについての スケーリング則が得られた 計算量の制限がある場合も、十分に大きなモデルでは、データセットサイズ の巨大化によって損失関数が効率的に下がることが分かった 既存の世界モデル研究に用いられるデータセットサイズはモデルの表現能力 に対して小さすぎると考察した 今後の課題 • • 計算量の制限がある場合、モデルサイズとデータセットサイズとエポック数 をどのような値に設定することで効率的に訓練できるか 獲得した環境の表現を用いて強化学習を行うモデルにおいて、強化学習で獲 得される方策の性能はどのようにスケールするか ©︎MATSUO INSTITUTE, INC. 18
参考文献 • • • • • Dosovitskiy, A., Ros, G., Codevilla, F., Lopez, A., and Koltun, V. “CARLA: An Open Urban Driving Simulator”, in Proceedings of the 1st Annual Conference on Robot Learning, pp. 1–16 (2017) Henighan, T., Kaplan, J., Katz, M., Chen, M., Hesse, C., Jackson, J., Jun, H., Brown, T. B., Dhariwal, P., Gray, S., et al. “Scaling laws for autoregressive generative modeling”, arXiv preprint arXiv:2010.14701 (2020) Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., and Amodei, D. “Scaling laws for neural language models” arXiv preprint arXiv:2001.08361 (2020) Micheli, V., Alonso, E., and Fleuret, F. “Transformers are sample efficient world models”, arXiv preprint arXiv:2209.00588 (2022) Yan, W., Zhang, Y., Abbeel, P., and Srinivas, A. “Videogpt: Video generation using vq-vae and transformers”, arXiv preprint arXiv:2104.10157 (2021) ©︎MATSUO INSTITUTE, INC. 19
補足:詳細な実験設定 モデル: sparse attention 事前訓練: フレーム数16, 解像度128x128 CARLA: フレーム数16, 解像度256x256 損失関数: Cross Entropy Loss バッチサイズ: 4 学習率: 3.0 * 10^-4 head数: 3 optimizer: Adam (betas = (0.9, 0.999)) ©︎MATSUO INSTITUTE, INC. 20
補足:データセットサイズ増大の効果の定性的検証 モデルサイズが最大の時、データ数が大きい方が再構成が上手くいく データセットサイズ:8.0 * 10^7 トークン データセットサイズ:8.0 * 10^9 トークン ©︎MATSUO INSTITUTE, INC. 21
補足:収束後のFVDとデータセットサイズの関係 FVDは、データセットサイズに対するスケーリングがあまり見られなかった 結果 どのモデルサイズでも、データセット サイズの変化によるFVDの大きな変化 はなかった 考察 FVDは、各々のサンプルとその再構成 誤差を見ているわけではない。従って 、予測が間違っていたとしても、 decodeしたものの品質が悪いとは限 らないのでは? ©︎MATSUO INSTITUTE, INC. 22
©︎MATSUO INSTITUTE, INC.