[DL輪読会]Learning Robust Rewards with Adversarial Inverse Reinforcement Learning

>100 Views

February 06, 18

スライド概要

2018/2/2
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] “Learning Robust Rewards with Adversarial Inverse Reinforcement Learning (ICLR2018)” 吉田 岳人, 國吉新山研 DL輪読会2018/02/02発表 http://deeplearning.jp/ 1

2.

書誌情報 •https://openreview.net/forum?id=rkHywl-A•著者:Justin Fu, Katie Luo, Sergey Levine –UC Berkeley –Chelsea Finn氏による、Guided Cost Learning[Finn+, 2016]とA connection between GANs , IRL and EBM[Finn+, 2016]を引き継ぐ形 •ICLR 2018 accepted –Score: 7,6,6 2

3.

逆強化学習(IRL)とは エキスパートが従っている報酬関数を推定 •Maximum Entropy IRL •RL 環境 𝑃(𝑠 ′ |𝑠, 𝑎) Task解決 報酬関数 𝑟(𝑠, 𝑎, 𝑠′) 学習 最適方策 𝜋 ∗ (𝑎|𝑠) 実行 軌道{𝑠𝑡 , 𝑎𝑡 ; 𝑡 = 0, … , 𝑇} 𝜋∗ 𝜏 = exp 𝑅 𝜏 𝑍 が成立し、…(1) exp 𝑅 𝜏 [ ] 𝜏∈𝐸𝑥𝑝𝑒𝑟𝑡 𝑍 𝑟 𝑠,𝑎 で最適な報酬関数を推定 𝑎𝑟𝑔𝑚𝑎𝑥 𝐸 𝜏 = {𝑠𝑡 , 𝑎𝑡 ; 𝑡 = 0, … , 𝑇} 𝜋 ∗ 𝜏 :最適方策により𝜏が生成される確率 𝑅(𝜏):軌道𝜏により得られる累積報酬 •IRL エキスパート軌道 [{𝑠𝑡 , 𝑎𝑡 ; 𝑡 = 0, … , 𝑇} 𝑖 ; 𝑖 = 1, . . , 𝑛] • IRLの基本アルゴリズム • (1)式は以下の仮定から求まる • 𝑎𝑟𝑔𝑚𝑎𝑥 𝐸 [𝑅 𝜏 − log 𝜋 𝜏 ] 学習 報酬関数 𝑟(𝑠, 𝑎, 𝑠′) 𝜋(𝑎|𝑠) 𝜏~𝜋 • 第一項のみでは対応する方策が複数存 • エントロピー最大化の制約項を入れて 対応する方策を一意に定める エントロピー 𝜋1∗ 中 𝜋2∗ 大 𝜋3∗ 小 3

4.

Imitation Learning(IL)とは 報酬を陽に扱うか陰に扱うか •Direct –Generative Adversarial Imitation Learning (GAIL) [Ho & Erman, NIPS2016] –GANのGeneratorをエージェントの方策と する –Discriminatorは状態sで行動aを取るエー ジェントがエキスパートかどうかを見分 ける –学習が収束すると𝜋𝑎𝑔𝑒𝑛𝑡 = 𝜋𝑒𝑥𝑝𝑒𝑟𝑡 となる •Indirect –陽に報酬関数を求めた後、もしくは求め ながら、最適方策を求める IRL 𝑟(𝑠, 𝑎, 𝑠′) RL 最適方策 𝜋 ∗ (𝑎|𝑠) –本論文は陽に報酬を求めながら最適方策 を求める –具体的には以下のようにDiscriminatorを工 夫したGANを使うと報酬関数を取り出せる GAN-GCL[Finn+, 2016] 「GAILの問題点」 –報酬関数は陰に求めつつ方策を直接πを 最適化していく →報酬関数がDiscriminatorに埋もれる *Dは報酬関数を表しているように思える が、学習が収束すると、Generator 𝜋𝑎𝑔𝑒𝑛𝑡 が出す軌道のどのs,aに対してもD(s,a)=0.5 となり報酬関数として不適 4

5.

本論文の概要 •問題意識 –同じ軌道を生成する方策が複数ある問題→Max Ent IRLで解決 –同じ最適方策が生じる報酬関数も複数ある ⇓ • 状態遷移モデルが変化する転移学習を考える際、複数ある報酬のうち一部し かうまく機能しない •アプローチ –同じ最適方策を生じる報酬関数のクラスの性質を分析 –転移学習に耐えうる報酬を学習するアルゴリズムの考案 5

6.

報酬関数の曖昧性 状態sにのみ依存する報酬のみが環境変化にロバスト •最適方策が一致する報酬のク ラスは以下のもののみであるこ とが知られている[Ng+, 1999] ∵ ∞ 𝑡 𝑡=0 𝛾 𝑟 𝑠𝑡 , 𝑎𝑡 , 𝑠𝑡+1 ∞ 𝑡 𝑡=0 𝛾 𝑟 𝑠𝑡 , 𝑎𝑡 , 𝑠𝑡+1 + ∞ 𝑡 𝑡=0 𝛾 𝑟 𝑠𝑡 , 𝑎𝑡 , 𝑠𝑡+1 − + 𝛾Φ 𝑠𝑡+1 − Φ 𝑠𝑡 𝛾 ∞ Φ 𝑠∞ − Φ 𝑠0 = Φ 𝑠0 = –このような報酬の変形があると、 状態遷移モデルが変わったときにr^ によって得られる最適方策が解きた いタスクの最適方策でなくなる。 •状態sにのみ依存するように Discriminatorの構造を決める –すると最適値では –となり •s’やaに依存すると状態遷移モ デル変化に対してロバストでな くなる 6

7.

アルゴリズム 7

8.

実験・結果 学習済みの方策が生成する軌道から報酬学習、テスト時 は変化した環境モデル下で再学習した方策の性能を見る •連続状態行動空間 •離散状態行動空間 –state0で行動を何か行えば報酬1 –初期状態はstate1 c)では Adavantage Functionが 復元される 外界が変わる 身体が変わる 8

9.

結果(2) Pointmass-mazeで得られた報酬 環境変化にロバストになっている。 9

10.

実験・結果(3) •AIRLが普通のImitationタスクにも使えるのか検証 –GAILに匹敵。Indirect Imitationでも高自由度の連続行動 空間に使えることを示した。 –ただし、必要なInteractionの数が書いてないので、効 率性はわからない。 10

11.

まとめ •転移タスクまとめ –小さい環境では、方策を再学習しないで成功 –大きい環境では、訓練環境でエージェントが試行錯誤 して状態sにのみ依存する報酬と方策を最適化⇒テスト 環境で方策を再学習するとそれなりの性能を出せた •Imitationタスクまとめ –GAILに性能は匹敵、効率は不明 11