【DL輪読会】Scaling laws for single-agent reinforcement learning

217 Views

February 17, 23

#deep learning #Deep Learning #Reinforcement Learning #Scaling Laws #Open AI #Intrinsic Performance

スライド概要

2023/2/10
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “Scaling laws for single-agent reinforcement learning” 1 東京大学工学系研究科稲富翔伍 http://deeplearning.jp/

http://deeplearning.jp/

1.Intro 書誌情報 2 論文名 Scaling laws for single-agent reinforcement learning 著者 Jacob Hilton, Jie Tang, John Schulman (Open AI) 投稿 arXiv 31st Jan. 2023 概要 • RLにおけるべき乗則を示すため、Intrinsic Performance を導入 • モデルサイズ・環境へのインタラクション（データ収集）についてべき乗則が見られた • 計算予算と最適なモデルサイズの関係もべき乗則に従う 2023/02/10

1.Intro べき乗則 3 Test Loss べき乗則（Scaling Laws）深層学習でのべき乗則モデルサイズや計算コストをかければ性能がべき乗則に従い増える。 OpenAIの大規模モデル Scaling Laws for Neural Language Models - Kaplanら(2020) Okimuraさん輪読資料より https://www.slideshare.net/DeepLearningJP2016/dlscaling-laws-for-neural-l anguage-models Scaling Laws RL分野でのブレイクスルーが接 2023/02/10

https://www.slideshare.net/DeepLearningJP2016/dlscaling-laws-for-neural-l

1.Intro 生成モデルとRLのべき乗則 4 生成モデル（ここではGPTのような自己回帰型の言語生成モデル） Loss：クロスエントロピー誤差が用いられる。モデルサイズ・計算コストに対して、テスト時の滑らかなLoss減少が見られた（Smooth power laws）。強化学習 RLではクロスエントロピー誤差は用いられないため別の性能指標が必要。 - サッカーなどの対戦型ゲームで用いられるイロレーティングは、計算量に対するべき乗則に従い滑らかに変化する指標。一方、すべてのRLにおいて滑らかに変化する“自然な”指標があるわけではない。例：物を集めるゲームでは、ある一定の能力を獲得すると、急激にポイントが増加する。アナロジー：生成モデルでの、“自然な“指標以外のべき乗そこで、性能指標“Intrinsic performance”を導入。則「計算予算が一定のときのテスト時ロスが最小となる最適モ - 計算量に基づいた指標デルサイズは、計算予算のべき乗則に従う。」＝計算予算を倍に増やすなら、モデルサイズも倍にすればよい。これを用いて、モデルサイズや環境とのインタラクション量が性能に対してどのような関係か調べる。結論：べき乗則に従い性能増加する！ 2023/02/10

2.Scaling laws without cross-entropy loss Intrinsic performance - RLでべき乗則を示すには 5 “自然な“性能指標Mean episode returnでは直線的な性能増加がみられない。スコア5-10の間（下図黄枠）で射撃や回避に必要な性能を獲得し、その後は簡単にスコア増加。性能指標としてIntrinsic performanceを導入。訓練時の計算量を性能とみなす。定義：「ある方策のIntrinsic performanceは、任意のサイズのモデルが同じ収益(return)に到達するように学習させるために必要な最小の計算量」 → 定義が難解であるため学習曲線のグラフで理解 Star pilot 2023/02/10

2.Scaling laws without cross-entropy loss Intrinsic performanceのグラフの読み方（輪読者の解釈）・ (b)では(a)の縦軸をIntrinsic performanceに変えた。・ (b)ではIntrinsic Performanceの定義より、Efficient Frontierは直線になる。（定義の読み替え）・ (a)の曲線形状は学習による性能向上を示すが、(b)の曲線の形状は意味を読み取らなくてよさそう。 → Efficeint Frontierに接する点が重要・ Power law asymptote（漸近線）は10^4.3 ~ 10^5.8のモデルについての漸近線が示されている・モデルサイズの指数を単調に増やした場合に、点の間隔も凡そ均等になっている 2023/02/10 6

2.Scaling laws without cross-entropy loss Intrinsic performanceに対するべき乗則・計算量に対する最適なモデルサイズ Intrinsic performanceを導入すると、以下の経験式がおおよそ成立すると分かった。 I:Intrinsic performance, N:モデルサイズ（パラメタ数）, E:環境とのインタラクション, その他は正の定数 ※唐突に聞こえるが、類似の式が言語モデルにおいて成立していた。べき乗則：式(1)の解釈十分なインタラクションがある場合(E→∞)、IはNのべき乗則に従う。十分なモデルサイズである場合、IはEのべき乗則に従う。計算量に対する最適なモデルサイズ：(1)から導出される補題 1 ある一定の計算予算（計算量）の制限における最適なモデルサイズは、計算予算のべき乗則に従う。 2023/02/10 7

3.Experimental Setup 実験環境・アルゴリズム等の条件 1. Procgen Benchmark 8 2. Dota2 1vs1のMOVAゲーム PPO LSTMのサイズを様々変更 3. MNIST Star pilot Fruit Bot 2023/02/10 Coin Run 数字を当てられたらreward1が得られる。各ゲームにEasy, Hard の2種のモード GAE(Generalized Advantage Estimation) のパラメータを変更することで、Horizon length （未来のどこまでを考慮するか）の影響を調べる PPG-EWMA CNNのサイズを様々変更 PPO-EWMA CNNのサイズを様々変更強化学習でなくても解けるが、強化学習の枠組みに落とし込んで学習させる。

4.Results べき乗則の成立・ 2つの指数の関係 “Main Result” 2つの指数の関係 2023/02/10 式(1) 9 は学習初期を除いて、様々な環境・モデルサイズに対して成立。

10.

4.Results 計算量と最適なモデルサイズの関係 10 補題1（再掲）指数の値 Procgen 0.40～0.65 MNIST 0.66～0.80 Dota 2 0.76 ※ここでは環境の実行コストは考慮しない →後で考慮・理論的には、最適なハイパーパラメタと十分なランダムシード値を用いることで、指数（傾き）は0.5に近づく。 - 今回の実験だけでは結論が出ない。・係数（グラフの切片に相当）については環境によって大きく違うことが分かる。・MNISTを除き、ある計算コストに対するRLの最適モデルサイズは生成モデルに比べ小さい。 -2023/02/10 RLタスクの方が、horizonの長いこと、パラメータ当たりのForwardのFLOPsが多いことが影響

11.

4.Results Forward pass のモデルサイズと計算量 2023/02/10 Forward pass を指標に用いることでスケーリングの関係が類似する。パラメタ毎のFLOPs（層の深さ）を考慮できるため。 11

12.

5.Discussion サンプル効率の外挿・環境の実行を考慮した最適モデルサイズサンプル効率の外挿モデルサイズを無限大にすると、10^7.0モデルの最大性能まで、半分のインタラクションで到達 2023/02/10 環境の実行を考量した最適モデルサイズサンプル効率について議論するなら、環境の実行コストを考慮する必要がある。計算費用をかける際、モデルサイズが環境サイズより小さい場合、非効率である。 12

13.

5.Discussion 計算量の予測のために Transformative AI（破壊的・強力なAI）を作るためには？ - 人間の脳の理解によるパラメタ数決定と、学習を行うためのべき乗則が必要・べき乗則の指数は生成モデルと同程度 - 今回の実験ではばらつきがあったが、およそ0.5になるものと考えられる。・べき乗則の係数は数桁の差がある - Horizon lengthにより説明できる・演算強度の違い（モデルのパラメタ毎のFLOPs）を考慮するためにはForward passのFLOPsを使用する・サンプル効率はHorizon lengthのアフィン関数である。・べき乗則の指数の正確な予測は困難 2023/02/10 13

14.

まとめ • 単一AgentのRLにおけるべき乗則を示すため、Intrinsic Performance を導入 • 計算量に基づく指標 • 定義は難解であるので、今回は学習曲線を用いた解釈を紹介 • モデルサイズ・環境へのインタラクション（データ収集）についてべき乗則が見られた • 実験により、経験則の成立を確認 • 計算予算と最適なモデルサイズの関係もべき乗則に従う • べき乗則に影響を与える条件の整理感想 • MNISTの実験を深く理解できず… • RLも巨大化してサンプル効率を高めた“すごいモデル”がそのうち登場しそう。 2023/02/10 14