【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisation Perspectiveの論文紹介

>100 Views

October 08, 21

スライド概要

2021/10/08
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Spectral Normalisation for Deep Reinforcement Learning: An Optimisation Perspectiveの論文紹介 Ryoichi Takase, Department of Aeronautics and Astronautics, The University of Tokyo http://deeplearning.jp/ 1

2.

書誌情報 題目: Spectral Normalisation for Deep Reinforcement Learning: An Optimisation Perspective 著者: Florin Gogianu, Tudor Berariu, Mihaela Rosca, Claudia Clopath, Lucian Busoniu, and Razvan Pascanu 採録: ICML2021 概要: Atariゲームを用いた数値実験 価値関数の中間層を正規化しC51・RAINBOWを上回る性能を確認 MinAtarを用いた数値実験 高性能を発揮するAdamのパラメータの幅を確認 スペクトルノルムを用いてスケジューリングする手法を提案 ※ 注釈無しの図は本論文から抜粋 英語表記は本論文と対応 2

3.

背景 強化学習の課題 学習が不安定になりやすい 高性能を発揮するパラメータの幅が狭く調整が難しい 他分野での取り組み Generative Adversarial Network (GAN)では Spectral Normalisation (SN)によって安定した学習を実現[1] →強化学習にも適用することで課題解決につながると着想 [1] T. Miyato et al, "Spectral normalization for generative adversarial networks," 2018. 3

4.

Spectral Normalisation 関数𝑓がリプシッツ連続 を満たす𝑘(𝑘 ≥ 0)が存在(𝑘:リプシッツ定数) (例)線形写像𝑦 = 𝑊𝑥が1-リプシッツ(𝑘 = 1)とは が任意𝑥に対して成立 Spectral Normalisation(1-リプシッツ制約) 𝜌:行列𝑊の最大特異値 4

5.

スペクトルノルムを用いた正規化の手法 予備実験の結果 すべての層にSNをかけると性能が低下 →ネットワーク全体が連続であることが最適とは限らない 方針 全体ではなく一部の層の連続性で性能が向上する可能性がある → SNの対象となる層を限定する 本論文での表記 SN[-1]: 出力層をSN SN[-2]: 出力層の1つ前をSN (Pythonのリスト要素のインデックス) 5

6.

Atariゲームを用いた数値実験① Atariの54種類のゲームで獲得したスコアの平均を比較 RAINBOW C51(Categorical DQN) C51 + SN[-2](出力層の1つ前の層を正規 化) 中間層の正規化 →C51・RAINBOWを上回る性能を発揮 6

7.

Atariゲームを用いた数値実験② C51以外のアルゴリズムを用いたスコアの平均を比較 DQN DQN + SN[-2](出力層の1つ前の層を正規 化) DQN + SN[-3] DQN + SN[-4] ※ハイパーパラメータは全て同一 中間層のいずれかをSNすることで性能改善 → 強化学習でのSNの有効性を示唆 7

8.

Atariゲームを用いた数値実験のまとめ DQNとC51の数値実験でSNの有効性を示唆 → 性能改善の要因調査が必要 ※最適化アルゴリズムはAdamを使用 8

9.

性能改善の要因調査 解明すべき点 SNは最適化の性能にどう影響しているか? 実験内容 Adamのパラメータ(𝜂, 𝜀)、中間層の数、ユニット数を変化させて性 能を確認 学習環境はMinAtarを使用 Atariゲームの縮小版(10 x 10の解像度) 以下4つのゲームを使用 Sequest, Breakout, Asterix, Space Invaders 9

10.

Adamのハイパーパラメータと性能の関係 パラメータの組み合わせを変更し性能を確認 高い性能を発 揮 パラメータ (𝜂・𝜀) 1) ベースラインのアルゴリズムより性能が向上 2) 高性能を発揮するパラメータの幅が広がる 3) 学習性能の頭打ちを回避 10

11.

SNの対象範囲と性能の関係 SNの対象とする層数を変更し性能を確認 DQN DQN + SN[-2](出力層の1つ前の層を正規 化) DQN + SN[-2,-3] DQN + SN[-2,-3,-4] DQN + SN[-2,-3,-4]は性能低下 → SNの対象とする層数は半分以下が望ましい (関連研究[2,3]の結果と同様の傾向を確認) [2] Y. Yoshida and M. Takeru, "Spectral norm regularization for improving the generalizability of deep learning,” 2017. [3] M. Cisse et al, "Parseval networks: Improving robustness to adversarial examples," 2017. 11

12.

提案手法 – SNと勾配計算の関係 提案手法①(divOut) SNされていないネットワークに対し学習率𝜂をノルムでスケジュー リング → SNと同等のパラメータ更新式 導出の流れ ニューラルネットワーク MLP scaling SN + bias 重み行列𝑊𝑖 のSNとバイアス𝑏𝑖 をスケーリング , 𝜕ℒ → 𝛿𝐿 ≔ 𝜕𝑧 と定義すると𝜌−1 でスケーリングさ れる 𝐿 12

13.

提案手法 – SNと勾配計算の関係 提案手法②(divGrad) SNされていないネットワークに対し勾配をノルムでスケジューリング 例)Pytorch optimizer.step()の実行直前にweightの勾配をノルムで割る 提案手法③(mulEps) SNされていないネットワークに対しAdamのパラメータ𝜀をノルムでスケ ジューリング → divGradの近似 と近似して代入 13

14.

MinAtarを用いた数値実験 提案手法の性能を確認 3手法(divOut, divGrad, mulEps)はSNと同等の性能を発揮 divGradとmulEpsは全ての層に適用した場合でも高性能 → ノルムでスケジューリングすることでDQNの性能が向上 14

15.

まとめ Atariゲームを用いた数値実験 SNを強化学習の価値関数に適用 中間層をSNすることでC51・RAINBOWを上回る性能を発揮 MinAtarを用いた数値実験 高性能を発揮するAdamのパラメータの幅が広がる SNと勾配計算の関係を明確化 SNと同等以上の性能をノルムを用いたスケジューリングで実現 15