[DL輪読会]Implementation Matters in Deep RL: A Case Study on PPO and TRPO (ICLR’20)

>100 Views

March 04, 20

スライド概要

2020/02/28
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Implementation Matters in Deep RL: A Case Study on PPO and TRPO (ICLR’20) Presenter: Masanori Misono (Univ. Tokyo) http://deeplearning.jp/ 2020/2/28 1

2.
[beta]
書誌情報


Implementation Matters in Deep RL: A Case Study on PPO and TRPO

7!

Logan Engstrom, Andrew Ilyas, Shibani Santurkar, Dimitris Tsipras, Firdaus Janoos, Larry
Rudolph, Aleksander Madry (MIT)

%

ICLR’20 (Talk; 8, 8, 8)

URL

- https://openreview.net/forum?id=r1etN1rtPB
- https://github.com/implementation-matters/code-for-paper

:'

- TRPOPPO(+3&2(&6))#09
- .-,&685&(+41


/*

" 7!
 “A Closer Look at Deep Policy Gradients” (ICLR’20) ,
- https://openreview.net/forum?id=ryxdEkHtPS
- http://gradientscience.org/policy_gradients_pt1/

2020/2/28



$

2

3.

研究の動機 • Deep RL手法はしばしば(教師有り学習手法と比べて) ­ 実行の結果が安定しない ­ 再現性が低い • 結局のところ何故そのアルゴリズムが機能するのか, 何が重要なのかの理解が不十分 • ▶ 特にdeep policy gradient (TRPOとPPO) に関して調査 2020/2/28 3

4.

TRPO vs. PPO TRPO PPO 2020/2/28 4

5.
[beta]
OpenAI Baseline実装
• https://github.com/openai/baselines
• 以下の論文には書いていない最適化が含まれる (“code-level optimization”)
1. Value function clipping
2. Reward scaling

*8

3. Orthogonal initialization and layer scaling



4. Adam learning rate annealing

Adam%40

5. Reward Clipping

[-5,5][-10,10]

6. Observation Normalization

(50,

7. Observation Clipping

[-10,10]

8. Hyperbolic tan activations

policy

9. Global Gradient Clipping

$

2020/2/28

72

7


,-6

+&"

'/"

value network )#

912l2.!23



5

6.

どの最適化が実際に有効か? walker2d-v2 humanoid-v2 • 先述の手法うち1~4について有無(2^4=16通り)で実験 (時間的制約のため) 2020/2/28 6

7.

この実験から分かること • 全ての組み合わせを試した訳ではないが,PPOにおいて 1) reword scaling 2) adam learning rate scaling 3) orthogonal initialization は重要 • このことは論文に書いてあるアルゴリズムだけでは分からない • より分析をするために,PPOの実装として先述のcode-level optimizationを全て省いたPPO-Mを利用して実験 2020/2/28 7

8.

実験1: TRPOとPPOのTrust Region • PPO-MはKL値がiteration増加につれ発散 ­ PPO-Mだけでは信頼区間が保てない 2020/2/28 8

9.

 PPO-NoClipcode-level optimization Hopper Humanoid 実験2: PPO clip有無 2020/2/28 nocliptrust region   9

10.

実験3: vs. TRPO w/ code-level optimization - code-level optimization  TRPO/PPO  -  code-level optimization  !  2020/2/28  reward  10

11.

実験4: PPO vs no-clip - clip 2020/2/28   11

12.

まとめ • 実験的に,PPOの性能の優位性はclippingではなく,code-level optimizationによるものが示された ­ どのcode-level optimizationが,何故効くのかまでの理論的分析は無し • Deep RL手法をより理解するには,もっと構成要素をモジュラー化して, 何がどれだけ性能に影響するのか分析する必要がある (著者の主張) 2020/2/28 12