>100 Views
November 16, 18
スライド概要
2018/11/16
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] “Learning Self-Imitating Diverse Policies (ICLR2019 under review)” 國吉新山研究室/DeepX 吉田 岳人 DL輪読会2018/11/15発表 1 http://deeplearning.jp/
書誌情報 •URL –OpenReview, ArXiv •著者 –Tanmay Gangwani, Qiang Liu, Jian Peng –イリノイ大学アーバナ・シャンペーン校 •ステータス –ICLR2019 under review –Score: 8,8,5 •似た論文 –ICLR2019 under reviewのGenerative Adversarial Self-Imitation Learning –Score:6,5,4 –本論文とほぼ同じ手法を用いているが、本論文はSelf-Imitationの定式化と局所解にハマる 欠点の改良をしている分評価が高い 2
概要 •背景:強化学習はエピソード報酬・スパース報酬・ノイジー報酬に弱い –エピソード報酬:エピソードの最後のみ報酬が得られる –スパース報酬:ある条件下でのみ報酬が得られる(eg. Montezuma’s Revenge ) –ノイジー報酬:時々報酬が得られないタイムステップがある –どれも毎タイムステップ報酬が得られないため、信用割り当てが難しい •定式化 –Self ImitationをJS-Divergence最小化問題と定義して、それが方策勾配法で実現学習できる ことを示した •手法 1. 自身が生成した収益の高いTop-k軌道に近いかどうかを追加報酬として学習 2. Stein Variational Policy Gradientを用いて複数の方策を別々の役割を持つように学習 •結果 –手法1はエピソード報酬とノイジー報酬に強かった –手法1や純粋なRLはスパース報酬下で局所解にハマった –手法2はスパース報酬に強かった 3
背景(RLの問題点とSelf Imitation) •強化学習は毎ステップ報酬が得られないと学習しづらい –従来の打手 •最終収益のみ使って方策学習(e.g. Cross Entropy Method、Evolutionary Strategy) –サンプル効率が相当悪い •未知の状態に行くと追加報酬(Curiosity RL)(e.g. RND) –スパース報酬には効くが、エピソード報酬の信用割り当ての解決は難しそう •Self Imitation Learning[Oh et al., ICML2018] –本論文とは直接関係なし –Actor Criticにおいて過去の良い行動を再現させる手法 –Replay Bufferに(s,a,R)の組を保存しておき、R>Vすなわち、推定値より実際の収益が大きいとき行動a の尤度up 4
背景(GAIL) •Generative Adversarial Imitation Learning[Ho et al., NIPS2016] –エキスパートかどうか見分けるDiscriminatorと方策πをAdversarial Trainingで学習する模倣 学習手法 –Dはエキスパートなら0,エージェントなら1になるよう学習 –πは−𝑙𝑜𝑔𝐷𝜙(𝑠, 𝑎)を報酬として学習。すなわち、エキスパートだと識別器を騙せれば報酬 argmax 𝜃 E𝜋𝜃 [−𝑙𝑜𝑔𝐷𝜙 𝑠, 𝑎 ] –識別器が最適であるとき、エキスパートとエージェントの状態行動訪問分布をJSDivergenceの尺度の下、最小化することと等価 argm𝑖𝑛𝜃 𝐷𝐽𝑆 𝜌𝜋𝜃 , 𝜌𝜋𝐸 − 𝜆𝐻(𝜋𝜃 ) •状態行動訪問分布:方策𝜋𝜃 を何回もロールアウトした時に状態行動ペアがどのくらい訪問され るか 𝜌𝜋𝜃 𝑠, 𝑎 = 𝜌𝜋𝜃 𝑠 𝜋𝜃 𝑎 𝑠 , 𝜌𝜋𝜃 𝑠 = σ∞ 𝑡=0 𝑃(𝑠𝑡 = 𝑠|𝜋) 5
定式化と手法1 •Self-ImitationをTopKの軌道分布と行動状態訪問分布の距離を最小化する問題と定式化 •分布間距離JS-Divergenceを使う(dは𝜌の推定値) •𝜃で微分すると方策勾配法と同じ形になる •識別器𝑟 𝜙と方策𝜋𝜃 を交互学習(エキスパート軌道を自身のTopK軌道にしたGAIL) •外部報酬rと組み合わせる(手法1) 6
手法2 •手法1の欠点 –スパース報酬:そもそもReplay Bufferにいい軌道が入らず報酬を稼ぐことができない –局所解:Replay Bufferに局所解にハマった軌道が入ると局所解にトラップしてしまう –ノイジー報酬:報酬にランダム性があるとうまくいかない(理解できていない。。) •Stein Variational Policy Gradient(SVPG)の利用(手法2) –複数の方策が、収益を最大化しつつ、互いに異なるパラメータ空間に分布するよう学習 する手法 •第一項は近い方策の勾配も利用してExploitation, 第二項はなるべく他の方策から離れるExploration •第二項のKernelには∇𝜃𝑗 𝑘(𝜃𝑗 , 𝜃𝑖 ) = − ∇𝜃𝑖 𝑘(𝜃𝑗 , 𝜃𝑖 )となるものを使用(勝手に解釈してます) –先行研究ではRBF kernelだった –本論文では、 •αは次第に減少させる –複数の方策で別々のReplay Bufferを保持 –テスト時には一番性能の良い方策を選ぶ 7
アルゴリズム 8
実験 •手法1の実験 –Episodic reward •MuJoCoのタスクでエピソードの終わりのみ累積報酬が得られる –Noisy rewards •密な報酬 •確率pm(=0.9or0.5)でそのタイムステップの報酬が得られない •手法2の実験 –2D Navigation •密な報酬 •赤の上にいると1ポイント、緑だと10ポイント •赤は局所解 –Sparse Locomotion(Hopper, HalfCheetah, Ant) •MuJoCoの走るタスクで、走った距離がある距離を越えると、速度報酬が入る •全ステップで、トルクの絶対値分の罰則と生存ボーナスあり 9
手法1の実験結果 •Episodic rewardに強い。毎ステップ識別器から報酬を得られるから •Episodic rewardとNoisy rewardsどちらにも強い。密な報酬には効果があったりなかったり – ν=0はSelf ImitationなしのPPOを表す 10
手法2の実験結果 •2D Navigationの結果 –8つの方策を学習 –SI-independent(手法1)はバラバラに学習、SI-interact-JS(手法2)はSVPGを使って学習 –局所解にはまっていないこと、方策の距離が離れるように学習できていることがわかる 11
手法2の実験結果 •Sparse Locomotion –PPOと手法1、RBF kernelを使ったSVPGと比較 –手法2が一番性能がいいことがわかる –他の手法では、ただ立ち止まって、トルクのペナルティを避けて、生存ボーナスのみ稼 ぐ挙動が見られた 12
実験(Ablation Study) •self imitationの割合νとバッファーサイズCによってどれだけ性能が変わるか、Episodic Rewardで実験 •C=10で固定して、νを変化 –ν=1の場合が最良↔︎エピソードの最後のみで報酬が得られる場合、報酬そのものは全く 使わずにSelf Imiationだけしたほうがいい •ν=0.8で固定して、Cを変化 –Bufferサイズに最適のものはないが、どのCでもPPOのみより性能がいい 13
まとめ&感想 •まとめ –自身の生じた軌道のTopKを真似ると追加報酬が入るSelf Imitationを提案した •Self ImitationはEpisodic rewardやNoisy rewardsに強いことがわかった –さらに、SVPGを用いることで探索を促す手法を提案した •Self Imitation +SVPGはSparse rewardに強いことがわかった –SVPGで学習するそれぞれの方策にCuriosityを持たせるのはいいかもしれない •おまけ –無報酬でSVPG使ったらDiversity Is All You Needのように様々な挙動が見られた(動画) •感想 –SVPGは使えそう •Soft~~系の方策に多峰性を持たせる手法とは対照的 •方策勾配法に使えるのが良い –類似の論文(GASIL)の方では観測ノイズに強いという結果が出ていたので、観測ノイズ にも強いはず 14