[DL輪読会]Hyper parameter agnostic methods in reinforcement learning

>100 Views

June 22, 18

スライド概要

2018/06/22
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

Hyper Parameter Agnostic Methods in Reinforcement Learning Reiji Hatsugai, DeepX 1

2.

今日発表する論文 • Maximum a Posteriori Policy Optimization – DeepMind – ICLR2018 – タスク固有のハイパラを設定せずに、SOTA • Meta-Gradient Reinforcement Learning – DeepMind – 減衰率など強化学習のreturn推定に使われるパラメーターをメタに学習 – AtariでSOTA 2

3.

選定理由 • 強化学習はハイパラの調整が大変 – Deep RL that matters (http://deeplearning.jp/deep-reinforcement-learning-that-matters/) – ハイパラagnosticな手法があったらいいよね (去年) • ハイパラagnosticぽい手法も出てき始めている – ハイパラに対してロバスト (一本目) – ハイパラを自動調整 (二本目) 3

4.

Maximum a Posteriori Policy Optimization概要 • EMアルゴリズムを強化学習の問題設定に適用 • 最適行動の尤度に対して、下界 (ELBO) を考える – 下界を代理分布に対して最大化 (E-Step) – 下界を方策に対して最大化 (M-Step) • オフポリシーで学習可能 4

5.

目的関数導出式 O=1は最大の報酬が得られたことを表す 周辺化 報酬最大化 下界の導出 (イェンゼン) KL正則化 5

6.

E-Step (qに関する下界の最大化) • 軌道全体に関する式を1Stepに関する式に置き換え • 報酬最大化の式をQ関数に置き換え • KL正則をKL制約に置き換え (αからε) 1Stepにして、Q関数を導入 KL正則をKL制約に置き換え 6

7.

M-Step (πに関する下界の最大化) • πに関する項のみを残すと、 するπの尤度最大化の式になる (事前分布項付き) qでサンプリング – 事前分布をガウシアンで分散をFIMにすると、KL正則の式に変形できる • FIMとKLの関係は「DLと曲がったパラメータ空間」に詳しく (http://deeplearning.jp/deeplearningと曲がったパラ メータ空間 -scalable-trust-region-method-for-deep-reinforcement-learning-using-kronecker-f/) 目的関数のπに関する 項 事前分布にFIMを使 い、KL正則の式に変 形 KL正則の式を、 KL制約の式に置き換え 7

8.

KL正則?KL制約? • 論文の本文内ではKL正則をKL制約に変形して議論している • Appendixを見てみると、 Lagrange関数としてKL正 則をロス関数に加えている – Soft -> Hard -> Soft? – なんの意味があるのか • 実は、Lagrange関数の形にすることで についての双対問題を考えることができる Lagrange Multiplier 8

9.

双対問題とは 9

10.

OpenReviewでの著者QA (抜粋) • a KL divergence regularizer is replaced by a “hard” constraint. However, the hard constraint is then replaced by a soft constraint. • This is due to the fact that the scale of the rewards is unknown a-priori and hence the multiplier that trades of maximizing expected reward and minimizing KL can be expected to change for different RL environments. When we put a hard constraint on the KL we can explicitly force the policy to stay "epsilon-close" to the last solution independent of the reward scale. 10

11.

ざっくりいうと • 報酬スケールはタスクによって異なるが、更新のKLは同じにしたい • 双対問題を考え、Lagrange multiplierを更新することで 制約をちゃん と守らせる • 結果、報酬スケールに依存しないハイパラ (ε) を設定可能! 11

12.

実験対象 • DeepMind Control Suite • DDPG, PPO, EPGと比較 12

13.

実験結果 • 強い • 同じハイパラ 13

14.

難しい環境 (パルクール) 14

15.

Meta-Gradient Reinforcement Learning概要 • 強化学習の教師データは真の値でなく、減衰率などを使った推定値 • 真に上昇させたいreturnについて、勾配を考える • ベースの考え方はvalidation 15

16.

強化学習復習 報酬関数がよく設計されていれば γは小さい値でもよい γはどれだけ長くの系列を見るのかというハイパーパラメータ 16

17.

全体図1 17

18.

全体図2 18

19.

手法説明 • ある軌道に対してパラメータを更新 • 更新後のパラメータを別の軌道に適用かつ、 大きく (returnに値を近づける) した目的関数を、 して微分 減衰率を もとの減衰率に対 • イメージとしては、別の軌道、別のηでvalidationしながら学習 19

20.

価値関数の学習による例 パラメータに関する勾配 目的関数 更新則 更新則のηに関する勾配 20

21.

実験結果 21

22.

まとめ • Hyper Parameter Agnosticな強化学習手法 – ハイパラをロバストにするために双対問題を考える – 強化学習の枠組みの中で、真値に対してハイパラを学習 • 今日紹介した2つの手法は強化学習以外の問題設定に使えそう – KL proximal制約とか – Validationが上手く用意できたらハイパラも最適化しながらできる • 強化学習の主戦場は単純な手法から、 設定が解ける手法に変化 (メタタスク、ドメアダ) 複雑な問題 – 今回紹介したような問題設定は変えない手法は最近少ない – ハイパラagnosticはその中でまだ面白い課題 22