>100 Views
March 04, 20
スライド概要
2020/02/28
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Implementation Matters in Deep RL: A Case Study on PPO and TRPO (ICLR’20) Presenter: Masanori Misono (Univ. Tokyo) http://deeplearning.jp/ 2020/2/28 1
書誌情報
Implementation Matters in Deep RL: A Case Study on PPO and TRPO
7!
Logan Engstrom, Andrew Ilyas, Shibani Santurkar, Dimitris Tsipras, Firdaus Janoos, Larry
Rudolph, Aleksander Madry (MIT)
%
ICLR’20 (Talk; 8, 8, 8)
URL
- https://openreview.net/forum?id=r1etN1rtPB
- https://github.com/implementation-matters/code-for-paper
:'
- TRPOPPO(+3&2(&6))#09
- .-,&685&(+41
/*
" 7!
“A Closer Look at Deep Policy Gradients” (ICLR’20) ,
- https://openreview.net/forum?id=ryxdEkHtPS
- http://gradientscience.org/policy_gradients_pt1/
2020/2/28
$
2
研究の動機 • Deep RL手法はしばしば(教師有り学習手法と比べて) 実行の結果が安定しない 再現性が低い • 結局のところ何故そのアルゴリズムが機能するのか, 何が重要なのかの理解が不十分 • ▶ 特にdeep policy gradient (TRPOとPPO) に関して調査 2020/2/28 3
TRPO vs. PPO TRPO PPO 2020/2/28 4
OpenAI Baseline実装
• https://github.com/openai/baselines
• 以下の論文には書いていない最適化が含まれる (“code-level optimization”)
1. Value function clipping
2. Reward scaling
*8
3. Orthogonal initialization and layer scaling
4. Adam learning rate annealing
Adam%40
5. Reward Clipping
[-5,5][-10,10]
6. Observation Normalization
(50,
7. Observation Clipping
[-10,10]
8. Hyperbolic tan activations
policy
9. Global Gradient Clipping
$
2020/2/28
72
7
,-6
+&"
'/"
value network )#
912l2.!23
5
どの最適化が実際に有効か? walker2d-v2 humanoid-v2 • 先述の手法うち1~4について有無(2^4=16通り)で実験 (時間的制約のため) 2020/2/28 6
この実験から分かること • 全ての組み合わせを試した訳ではないが,PPOにおいて 1) reword scaling 2) adam learning rate scaling 3) orthogonal initialization は重要 • このことは論文に書いてあるアルゴリズムだけでは分からない • より分析をするために,PPOの実装として先述のcode-level optimizationを全て省いたPPO-Mを利用して実験 2020/2/28 7
実験1: TRPOとPPOのTrust Region • PPO-MはKL値がiteration増加につれ発散 PPO-Mだけでは信頼区間が保てない 2020/2/28 8
PPO-NoClipcode-level optimization Hopper Humanoid 実験2: PPO clip有無 2020/2/28 nocliptrust region 9
実験3: vs. TRPO w/ code-level optimization - code-level optimization TRPO/PPO - code-level optimization ! 2020/2/28 reward 10
実験4: PPO vs no-clip - clip 2020/2/28 11
まとめ • 実験的に,PPOの性能の優位性はclippingではなく,code-level optimizationによるものが示された どのcode-level optimizationが,何故効くのかまでの理論的分析は無し • Deep RL手法をより理解するには,もっと構成要素をモジュラー化して, 何がどれだけ性能に影響するのか分析する必要がある (著者の主張) 2020/2/28 12