543 Views
August 09, 19
スライド概要
2019/08/09
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
Dynamics-Aware Unsupervised Discovery of Skills Joji Toyama
書誌情報 • Authors: Archit Sharma, Shixiang Gu, Sergey Levine, Vikash Kumar,Karol Hausman • Google Brain • Under review (NIPS format) • Topic: Model-based RL, Intrinsic Reward • 選定理由:(M嶋君に読めと言われたから)面白そうだから
Model-based RLの良いところ、悪いところ • 良いところ • Model-freeで学習された方策はそのタスクにしか使えないが、Modelbasedの場合学習されたモデルはどんなタスクにも使える。 • 悪いところ • 全ての(𝑠, 𝑎)対に関するモデルを学習させるのが難しい。 • 通常ランダム方策などからモデルを学習させるが、学習された方策で は状態分布が異なるため、そういった場合に汎化しない可能性。
モデルをなるべく学習しやすくするには? • 限定された 𝑠, 𝑎 についてモデルを学習すれば、全空間のモデル を学習するより簡単なはず • そもそもモデルを学習しやすいような振る舞いを事前に獲得す る。 • 本論文の提案:Dynamicsの予測可能性(predictability)を内的報 酬として用いて、教師情報なしで様々なスキルを獲得する手法 = Dynamics-Aware Discovery of Skills (DADS)
前提知識:相互情報量 • 𝐼 𝐴; 𝐵 = 𝐻 𝐴 − 𝐻(𝐴|𝐵) • 𝐴と𝐵がどれくらい情報量を共有するか • 𝐴と𝐵が独立ならゼロ • 𝐼 𝐴, 𝐵; 𝐶 = 𝐼 𝐴; 𝐶 + 𝐼 𝐵; 𝐶 𝐴) • 相互情報量の連鎖律
前提知識:skill conditioned model • 普通のモデル 𝑝(𝑠 Ƹ ′ |𝑠, 𝑎) • Skill conditioned model 𝑞(𝑠 ′ |𝑠, 𝑧) • スキル=潜在空間に埋め込まれた、エージェントの振る舞いの 表現 • e.g. 右に歩く、左に歩く、走る、ジャンプする・・・
内的報酬 𝐼 𝑠1 , … , 𝑠𝑇 ; 𝑧 𝑠. 𝑡. σ𝑇−1 𝑡=1 𝐼(𝑎𝑡 ; 𝑠𝑡 , 𝑧 ) ≤ 𝐼𝑐 (1) • スキルは、そのスキルによって訪れた状態に関して、最大限の情報を もたらす • スキルは、ある状態時の行動に関して、なるべく少ない情報をもたら す 𝐼 𝑠1 , … , 𝑠𝑡 ; 𝑧 = 𝐼 𝑠1 ; 𝑧 + 𝐼 𝑠2 ; 𝑧 𝑠1 + 𝐼 𝑠3 ; 𝑧 𝑠2 + … (2) • 相互情報量の連鎖律とマルコフ連鎖より 𝑇 • (1), (2)より、𝑅 𝜋 = 𝐼 𝑠𝑡+1 ; 𝑧 𝑠𝑡 − 𝛽𝐼(𝑎𝑡 ; 𝑠𝑡 , 𝑧 ) 𝑡=1 定数𝐼𝑐 は無視
内的報酬 KL divergenceの非負性 log 𝑝(𝑎)を無視 上の式は、エントロピー正則化付きの報酬(第1項と第2項)とみれる。報酬部分について、 𝑝(𝑠𝑡+1|𝑠𝑡 )は実際には計算できないので、𝑝を𝑞𝜙に置き換え、𝑧をサンプリングしてモンテカルロ近似
DADS (𝑞𝜙の勾配)
スキルとモデルのプランニングへの活用 • 行動の代わりに、潜在空間に埋め込 まれたスキルによってプランニング を行う。 • モデルはDADSで学習される、スキ ルに条件づけられたモデルであるた め、良いプランニングが可能(であ ることが期待される)。 • Model Predictive Control(MPC)と 同様の形で、実際に用いるスキルを 選択する。
スキルとモデルのプランニングへの活用 • 各スキルは𝐻𝑧 タイムステップの間行動 を出す(MPCは通常1ステップの行動 のみ) • 𝜇でパラメタライズされたガウス分布 を用いて、スキルは𝐾回サンプルされ る。それぞれの報酬から、𝜇を以下の ように更新。 • エージェントは選ばれたスキルで𝐻𝑧 ス テップ行動。
定性的な分析 • https://sites.google.com/view/dads-skill • 安定していて、動きを予測しやすそう • 高次元でも使える(ヒューマノイド)
スキルが連続な潜在空間に綺麗に配置される • 左が離散、中央が連続空間にスキルを埋め込み、uniformにサンプルした時のant の軌道。中央の方が様々なスキルが均等に得られている。 • 右の図は、潜在空間の値が変わるときれいに回転姿勢が変わることを示している。 • 連続潜在空間にスキルが埋め込まれていて(本論文が初)、スキルがスムースに 変わることがわかる。
DIAYN(diversity is all you need)との比較 • DIAYN:diversity • DADS: diversity and predictability • x-y平面上の座標のみを状態とし、 antをそれぞれ学習させる。 • DIAYNはそれぞれのスキルは異なる が、同じスキル内の軌道の分散が大 きい。 • DADSはそれぞれのスキルが異なり、 さらに同じスキル内の分散が少ない。 • downstreamタスクに使いやすい!
Model-based RL • x-y平面上にゴールがあり、そこへantが到達するタスク • 比較手法 • MBRL手法:PETS • random MBRL: モデルを、ランダム方策によって学習させる • Weak-Oracle MBRL : モデルを、ゴールをランダムに発生させてそこへの軌道を用いて学習させる • Strong-Oracle MBRL :モデルを、ゴールをテスト時と同様の位置に発生させてそこへの軌道を用いて学習 させる
Model-based RL • 左図:提案法は全てのベースラインを上回る(低いほうがいい) • Strong Oracleも上回る • 右図:提案法は新しいタスクに出会ってもサンプルが全く必要ない一方、Strong Oracleは新しい タスクに出会った時、ダイナミクスを学習するためのサンプルがまた必要になる。
Hierarchical RL • タスク:antのナビゲーション • Skillを下位コントローラとして、そ れを選択するメタコントローラを学 習させる。 • DIAYNと比較 • DIAYNのskillは分散が大きすぎて、 メタコントローラを学習できない • 一方でDADSのskillはメタコント ローラを学習可能 • メタコントローラはMPPIによりいいパ フォーマンスが出ない
Model-freeとの比較(goal-conditioned RL) • 状態に現在地からゴールまでのベクトルを 含めたRL • 訓練時は[-10, 10]^2の領域で、テスト時は 領域が広がる。 • DADS+MPPIは訓練時にない領域でも良い パフォーマンス • Model-freeはスパース報酬時に学習不能だ が、DADS+MPPIは学習できる • スキルが事前に獲得できている利点
まとめ • モデルベースのプランニングに用いられるようなスキルの獲得 方法を提案 • 高次元でも用いることができ、学習されるスキルは低分散で、 downstreamタスクに用いやすい。 • タスク情報なしに、SOTAのタスク情報を使ったMBRLを上回 る • 今後の展望:ロボティクスタスクへの適用、画像からスキル/ モデルを獲得、オフポリシーデータの活用(?)