【DL輪読会】In deep reinforcement learning, a pruned network is a good network

2.4K Views

March 08, 24

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] In deep reinforcement learning, a pruned network is a good network Presenter: Takahiro Maeda D3 (Toyota Technological Institute) http://deeplearning.jp/

2.

目次 1. 2. 3. 4. 5. 6. 7. 8. 書誌情報 概要 研究背景 Gradual Magnitude Pruningとは 実験条件 実験結果 解析 考察・所感 2

3.

1. 書誌情報 2024/02/24にArxivに投稿 ※特に明示が無い場合は,紹介論文,動画から引用 3

4.

2. 概要 • 深層強化学習でpruningがパラメータ効率を上げることを確認 – Gradual Magnitude Pruning (GMP) が有効 – Scaling Lawを示唆する実験結果を得た?(右下) – GMPを正則化とplasticityで解析 – Atari 100kの60タスクで検証 • CNNベースのモデルのみで実験 4

5.

3. 研究背景 • 2017年に提案されたGradual Magnitude Pruning (GMP) は, 物体検出CNNの性能を保ちつつ9割程度のパラメータを削減[1] • 2022年の論文ではGMPをCNNベースの強化学習モデルに適用すると, 50%程度の性能向上を確認[2] • 紹介論文では,強化学習全般でGMPによる性能向上を確認 • Scaling Lawを一部で確認 5

6.

4. Gradual Magnitude Pruningとは • Gradual Magnitude Pruning (ICML workshop 2017 [1]) – 学習初期:全パラメータを学習 – 学習中期:枝刈り率を徐々に増やす (gradual) 各層ごとに重みが小さいweightから0に固定 (magnitude pruning) – 学習末期:枝刈り終了後もしばらく学習継続 – 枝刈り率(st , sparsity)のスケジュール 6

7.

5. 実験条件 • パラメータ数,最終枝刈り率,枝刈り率スケジュールを変化 • Low dataの場合の性能 • Offline RL, Actor-Critic手法での性能 7

8.

6. 実験結果 • パラメータ数,枝刈り率による性能変化(Online RL) 性能とパラメータ数 性能と最終枝刈り率 従来は強化学習で見られなかったScaling Lawを GMPにより得られた? 枝刈り割合は95%程度がよい 8

9.

6. 実験結果 • 枝刈り率スケジュールによる性能比較 (Online RL) 比較する枝刈り率スケジュール 性能と枝刈りスケジュール 枝刈り率スケジュールによって • 学習途中の性能は大きく変化する • 学習終了後の性能は最終枝刈り率に依存してそう 9

10.

6. 実験結果 • Low data regimeでの性能比較 (Online RL) – DrQ(𝜖)[3], Data Efficient Rainbow(DER)[4]を使用 DrQ(𝜖)の学習フレーム数による性能変化 DERの学習フレーム数による性能変化 Low data 少数データの制約を入れると,GMPは効果なし 10

11.

6. 実験結果 • Offline RLでの性能比較 – Conservative Q-Learning (CQL) [5], CQL+C51[6]を使用 CQLの更新回数による性能変化 CQL+C51の更新回数による性能変化 パラメータ数が大きい場合では,Offline RLでも効果あり 11

12.

6. 実験結果 • Q-learningではないActor-Critic手法での性能比較 – Soft Actor Critic[7]を使用 Actor Critic系手法でも性能向上を確認 12

13.

7. 解析 • 性能向上の考察のため,学習過程を解析 Q値の分散 低下 Weightのノルム 低下 正則化の効果あり 有効ランク数(固有値が一定以上のランク数) 増加 休眠ニューロン数(activationがほぼ0のweight)減少 Plasticity向上の効果あり 13

14.

7. 解析 • Plasticity (可塑性)とは – 学習済みタスクに,新しいタスクの学習が悪く影響されないこと[8] – Continual Learning, Transfer Learning, Reinforcement Learningで重要 教師付き学習 初期化状態 強化学習 初期化状態 (目的タスクは1つ,例:画像認識) 画像認識 学習済み (目的タスク複数,例:pick&place 物体把持-移動-置く) 把持 学習 把持&移動 学習 Plasticity必要 把持&移動&置く 学習 Plasticity必要 14

15.

2. 概要 • 深層強化学習でpruningがパラメータ効率を上げることを確認 – Gradual Magnitude Pruning (GMP) が有効 – Scaling Lawを示唆する実験結果を得た?(右下) – GMPを正則化とplasticityで解析 – Atari 100kの60タスクで検証 • CNNベースのモデルのみで実験 15

16.

8. 考察・所感 • Plasticityという概念が勉強になった • CNN以外のモデル構造(MLP, Transformer)でも GMPが有効かどうかは要検証 • 流行りのDiffusion Policyなどは模倣学習(教師付き学習)のため plasticityは問題にならなかった – 今後,Online RLがスケーリングした場合,強さが逆転するかも? 16

17.

引用 • [1] Zhu, Michael, and Suyog Gupta. "To prune, or not to prune: exploring the efficacy of pruning for model compression." ICLR 2018 workshop • [2] Graesser, Laura, et al. "The state of sparse training in deep reinforcement learning." International Conference on Machine Learning. ICML 2022. • [3] Agarwal, Rishabh, et al. "Deep reinforcement learning at the edge of the statistical precipice." NeurIPS 2021. 17

18.

引用 • [4] Van Hasselt, Hado P., Matteo Hessel, and John Aslanides. "When to use parametric models in reinforcement learning?." NeurIPS 2019. • [5] Kumar, Aviral, et al. "Conservative q-learning for offline reinforcement learning." NeurIPS 2020. • [6] Kumar, Aviral, et al. "Offline q-learning on diverse multi-task data both scales and generalizes." ICLR 2022 18

19.

引用 • [7] Haarnoja, Tuomas, et al. "Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor." ICML 2018 • [8] Berariu, Tudor, et al. "A study on the plasticity of neural networks." arXiv preprint arXiv:2106.00042 (2021). 19