[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS

>100 Views

March 23, 18

スライド概要

2018/02/23
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] 報酬�期待値から報酬�分布� Hiroaki Shioya, Matsuo Lab http://deeplearning.jp/ 1

2.

���� = ��報酬を期待値で�なく分布で�う / ● 一�的な�化学習���報酬�期待値だけ考える ● �����期待値をとる��分布 (‘value distribution’) を求める

3.

��報酬を期待値で�なく分布で�える意味 ● ● 期待値�高い行動を����何も��ない しかし、、、分布�方が�しい場合もある�で�? ○ ○ ○ 分布�方が�報�がある �れ値���を�けにくい リスク��い行動を��たい 期待値�同じだけどリスク� 赤 > 緑 引用)https://deepmind.com/blog/going-beyond-average-reinforcement-learning/

4.

���化学習と��連 ● �������テク��ク�一つとして、少しずつ使われている ○ ○ ○ ○ A Distributional Perspective on Reinforcement Learning [Bellmare +, 2017] (DQN + distributional) Rainbow [Hessel +,2017] (DQN + distributional) D4PG [Barth-Maron +, 2017](DDPG + distributional) Reactor [Gruslys+, 2017] (ACERっぽい何か + distributional)

5.

発表��� ● DQNに報酬�分布を�ち�んだ論文 ’A Distributional Perspective on Reinforcement Learning’ を�に、最近���について��ます ● 発表に出てくる論文 ○ ○ ○ ○ ○ Parametric Return Density Estimation for Reinforcement Learning A Distributional Perspective on Reinforcement Learning DISTRIBUTIONAL POLICY GRADIENTS (THE REACTOR: A FAST AND SAMPLE-EFFICIENT ACTOR-CRITIC AGENT FOR REINFORCEMENT LEARNING) Distributional Reinforcement Learning with Quantile Regression

6.

ベルマン方程式�おさらい ● ベルマン方程式 ● ベルマン作用素�縮小写像な�で�り�し適用するとn→∞で不動点に収束する

7.

分布に拡張した場合�論点 ● ● ● 分布に何を用いるか 分布間距離をどう測定するか ベルマン方程式��動がどうなる�か

8.

Parametric Return Density Estimation for Reinforcement Learning ● ベルマン方程式を分布(ガウス分布、ラプラス分布)�場合に拡張し、 KL-divergence最小化で分布間距離を近づけて更新 ● 分布を考慮したことでrisk-sensitiveな行動がとれる 分布を考慮したことで こちらを見れる ���Q-learningで見 る位置

9.

A Distributional Perspective on Reinforcement Learning (ICML 2017) ● ● ● 分布版�ベルマン方程式が縮小写像になるかどうかをWesserstain距離を用いて 分析 ��報酬�分布をガウス分布で�なくカテゴリカル分布でモデル化 DQNと組み合わせて実験

10.

Distributional Bellman Equation Q���ベルマン方程式�(見た��)自然な拡張

11.

Wesserstein距離 ● Wesserstein距離�定義 (U, V�確率��、 F, G�U, V���確率密度�� ) ● 意味 : 分布を移動させる�にどれくらいコスト(距離×確率密度)がかかるか

12.

Wesserstein距離 1 F G 0 曲線で囲まれた部分が(1次)Wesserstain距離

13.

Wesserstein距離がもつ望ましい性質 ● ● 分布版ベルマン作用素が縮小写像になっていることを�す�に使う 例え�KL-divergenceで�これら�性質��り�たない

14.

分布版ベルマン作用素�Wesserstein距離において縮小写像 ��Wesserstain距離�性質を使って�明できる (定義) P1&P2を使う ● つまり、分布版ベルマン作用素��一�不動点Zπをもち、方策評価をすると正しく Zπに収束してくれる ● KL-divergenceなど��距離��で��り�たない�らしい�

15.

分布版最適ベルマン作用素�場合 ● まず用��定義. 最適価値分布�、�に期待値が最適なQ値に一致するだけでな く、最適方策�報酬分布に一致するも�とする ● 分布版最適ベルマン作用素�定義

16.

分布版最適ベルマン作用素によって期待値EZ�収束する ���最適ベルマン 作用素�縮小写像 (append��明,期待値抜けてる?) 最適ベルマン作用素も縮小写像になってくれてそう?

17.

しかし、分布版最適ベルマン作用素�縮小写像でない ��、Z����最適Q値に収束するけど、Z自��最適方策�連続による報酬分布 にまでしか収束しないということ

18.

最適ベルマン作用素が縮小写像にならない例 上��例で�、

19.

Wesserstein距離による分析�まとめ ● 分布版�ベルマン作用素�Wesserstein距離において縮小写像 ○ ○ ● Wesserstein距離��で��り�たない (���Wesserstein距離で�かる�が良さそう? ) 最適ベルマン作用素�場合�、期待値�最適値に収束してくれるが、分布自�� より大きな集合までしか収束しない

20.

��報酬分布�推定アルゴリズム ● カテゴリカル分布でモデル化する(�行���ガウス分布など) ● ● ● 表現力が高く、計算コストもほどほど カテゴリ��によって表現力が�化する 弱点�、分布�最大値�最小値を�め�ちすること

21.

��報酬分布�推定アルゴリズム ● ● 分析から、(不��で�あるけど)Wesserstein距離が優れていそう しかし、Wesserstein loss�SGDで最適化すると勾配がbiased ○ ● Cramer GAN�論文で�ベル�ー�分布�場合�み�明がある そこで、Wesserstein�使用を��ーリステ�クスで��

22.

��報酬分布�推定アルゴリズム ● (c)で移動した分布を、(d)でもともと�binに分類する ● つまり������ント��ーで、結局KL-divergence最小化をしている

23.

結局、Wesserstein距離�どうなった�? ● ● ● 使ってない ‘We note that, while these algorithms appear unrelated to the Wasserstein metric, recent work (Bellemare et al., 2017) hints at a deeper connection’らし いけど、よくわからなかった こ�点�後続���で少し���ーされている

24.

アルゴリズム ● ● 行動�定�Z�期待値�最大化するように行う(=ただ�Q-learningと同じ) こ�論文�主張�、たとえ期待値を最大化するように行動したとしても、学習を期 待値�MSEで�なく分布間距離を�に行うことで性能が��するということ

25.

Atariで�実験結果 ���DQNシリーズよりも良い

26.

カテゴリ���いによる�� カテゴリを増やすと良い、少なすぎると表現力が足りなくてDQNより悪化する

27.

DISTRIBUTIONAL POLICY GRADIENTS(ICLR 2018) ● DDPGに���工夫を�め合わせたD4PG(Distributed Distributional DDPG)を 提案、DDPG版�Rainbow的な論文 ● 用いた工夫 ● Atariで�なく連続値制御��実験をたくさんやっている ○ ○ ○ ○ multi-step return prioritzed experience replay distributional RL 分散学習(distributed)

28.

��実験�報酬�分布をど�分布でモデル化す�きか ● カテゴリカル分布>混合ガウス分布、 [Bellmare +, 2017]�主張を��する結果が 得られた

29.

実験結果 ● multi-step > distributional > prioritized��に大きな効果 ● prioritized�1-step D3PG�場合大きく���ーマンスがdropする場合がある

30.

わかったこと ● ditributional RLがDDPGにも有効であることが実験で確かめられた ● 連続値制御タスクにも使える ● ただし効果�ほどほどだった(Rainbowを見る�りで�、DQNでもそう)

31.

THE REACTOR: A FAST AND SAMPLE-EFFICIENT ACTOR-CRITIC AGENT FOR REINFORCEMENT LEARNING(ICLR 2018) ● actor-criticを��な工夫を用いて��、そ�一つとして報酬�分布を考慮した Retrace�分布版であるDIstributional Retraceを提案している ● D4PGに比�るとこ�論文で提案した�リ��ル�工夫がある ● 弱点として、実験が弱い ○ ○ ● Atari�み Rainbowが後から出てきて、良さがわかりづらくなった ���間がなかった�で�しく�論文�んでください

32.

Distributional Reinforcement Learning with Quantile Regression ● C51で諦めたWesserstein�最小化を、報酬分布をQuantile distributionでモデル 化することで可能にした

33.

Quantile Distributionによる報酬分布�モデル化 こっちを等間隔に分割 C51で�bin�分割� ● bin�最大、最小を�める��がなくなる、Projection Stepもいらない ● �論文で�これによりUnbiasedにWesserstein lossを最小化できると主張

34.

Quantile Regressionによる1-Wesserstein�unbiasedな最小化 ● ● 1-Wesserstein(赤部分)を最小化するQuatile distribution��������で求められ る分位点で�Quatile Regressionで求められる Quatile Regression loss�勾配�SGDでもunbiased

35.

中間点で1-Wessersteinが最小化される直感的な説明 z a b Δz zを左にずらしていくと、a*Δzが増え、b*Δzが減る 増�分と減少分が�り合う�がち�うど中間点で、それより左�どちらに動かしても赤い 部分����増える

36.

Quantile Projectionとベルマン作用素�縮小写像 最適ベルマン作用素で�ない?

37.

アルゴリズム

38.

1-Wessersteinが学習とともに減っている ● Policy Iteration + MCで推定した擬似的な正解と報酬分布を比較 ● 1-Wessersteinがきちんと減っている(e)

39.

Atari�結果も��

40.

���まとめ ● ���期待値�みを考慮していた報酬�分布を考えることにより性能が�上する ● DQNだけでなく、actor-critic��適用も出てきた ● うまくいく���考�、収束性��論的な分析とアルゴリズム��発�まだ発�� 上 ● 分布を考慮している�に結局期待値に�づいて行動している、risk-sensitive RLな ど���用もまだ