[DL輪読会]Dynamics-Aware Unsupervised Discovery of Skills

740 Views

August 09, 19

#deep learning #DADS #Model-based RL #Intrinsic Reward #Skill discovery #Machine Learning

スライド概要

2019/08/09
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 63.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.6K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 45K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 44.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 42.5K

各ページのテキスト

Dynamics-Aware Unsupervised Discovery of Skills Joji Toyama

書誌情報 • Authors: Archit Sharma, Shixiang Gu, Sergey Levine, Vikash Kumar,Karol Hausman • Google Brain • Under review (NIPS format) • Topic: Model-based RL, Intrinsic Reward • 選定理由：（M嶋君に読めと言われたから）面白そうだから

Model-based RLの良いところ、悪いところ • 良いところ • Model-freeで学習された方策はそのタスクにしか使えないが、Modelbasedの場合学習されたモデルはどんなタスクにも使える。 • 悪いところ • 全ての(𝑠, 𝑎)対に関するモデルを学習させるのが難しい。 • 通常ランダム方策などからモデルを学習させるが、学習された方策では状態分布が異なるため、そういった場合に汎化しない可能性。

モデルをなるべく学習しやすくするには？ • 限定された 𝑠, 𝑎 についてモデルを学習すれば、全空間のモデルを学習するより簡単なはず • そもそもモデルを学習しやすいような振る舞いを事前に獲得する。 • 本論文の提案：Dynamicsの予測可能性(predictability)を内的報酬として用いて、教師情報なしで様々なスキルを獲得する手法 = Dynamics-Aware Discovery of Skills (DADS)

前提知識：相互情報量 • 𝐼 𝐴; 𝐵 = 𝐻 𝐴 − 𝐻(𝐴|𝐵) • 𝐴と𝐵がどれくらい情報量を共有するか • 𝐴と𝐵が独立ならゼロ • 𝐼 𝐴, 𝐵; 𝐶 = 𝐼 𝐴; 𝐶 + 𝐼 𝐵; 𝐶 𝐴) • 相互情報量の連鎖律

前提知識：skill conditioned model • 普通のモデル 𝑝(𝑠 Ƹ ′ |𝑠, 𝑎) • Skill conditioned model 𝑞(𝑠 ′ |𝑠, 𝑧) • スキル＝潜在空間に埋め込まれた、エージェントの振る舞いの表現 • e.g. 右に歩く、左に歩く、走る、ジャンプする・・・

内的報酬 𝐼 𝑠1 , … , 𝑠𝑇 ; 𝑧 𝑠. 𝑡. σ𝑇−1 𝑡=1 𝐼(𝑎𝑡 ; 𝑠𝑡 , 𝑧 ) ≤ 𝐼𝑐 (1) • スキルは、そのスキルによって訪れた状態に関して、最大限の情報をもたらす • スキルは、ある状態時の行動に関して、なるべく少ない情報をもたらす 𝐼 𝑠1 , … , 𝑠𝑡 ; 𝑧 = 𝐼 𝑠1 ; 𝑧 + 𝐼 𝑠2 ; 𝑧 𝑠1 + 𝐼 𝑠3 ; 𝑧 𝑠2 + … (2) • 相互情報量の連鎖律とマルコフ連鎖より 𝑇 • (1), (2)より、𝑅 𝜋 = ෍ 𝐼 𝑠𝑡+1 ; 𝑧 𝑠𝑡 − 𝛽𝐼(𝑎𝑡 ; 𝑠𝑡 , 𝑧 ) 𝑡=1 定数𝐼𝑐 は無視

内的報酬 KL divergenceの非負性 log 𝑝(𝑎)を無視上の式は、エントロピー正則化付きの報酬（第１項と第２項）とみれる。報酬部分について、 𝑝(𝑠𝑡+1|𝑠𝑡 )は実際には計算できないので、𝑝を𝑞𝜙に置き換え、𝑧をサンプリングしてモンテカルロ近似

DADS (𝑞𝜙の勾配)

10.

スキルとモデルのプランニングへの活用 • 行動の代わりに、潜在空間に埋め込まれたスキルによってプランニングを行う。 • モデルはDADSで学習される、スキルに条件づけられたモデルであるため、良いプランニングが可能（であることが期待される）。 • Model Predictive Control(MPC)と同様の形で、実際に用いるスキルを選択する。

11.

スキルとモデルのプランニングへの活用 • 各スキルは𝐻𝑧 タイムステップの間行動を出す（MPCは通常１ステップの行動のみ） • 𝜇でパラメタライズされたガウス分布を用いて、スキルは𝐾回サンプルされる。それぞれの報酬から、𝜇を以下のように更新。 • エージェントは選ばれたスキルで𝐻𝑧 ステップ行動。

12.

定性的な分析 • https://sites.google.com/view/dads-skill • 安定していて、動きを予測しやすそう • 高次元でも使える（ヒューマノイド）

https://sites.google.com/view/dads-skill

13.

スキルが連続な潜在空間に綺麗に配置される • 左が離散、中央が連続空間にスキルを埋め込み、uniformにサンプルした時のant の軌道。中央の方が様々なスキルが均等に得られている。 • 右の図は、潜在空間の値が変わるときれいに回転姿勢が変わることを示している。 • 連続潜在空間にスキルが埋め込まれていて（本論文が初）、スキルがスムースに変わることがわかる。

14.

DIAYN(diversity is all you need)との比較 • DIAYN:diversity • DADS: diversity and predictability • x-y平面上の座標のみを状態とし、 antをそれぞれ学習させる。 • DIAYNはそれぞれのスキルは異なるが、同じスキル内の軌道の分散が大きい。 • DADSはそれぞれのスキルが異なり、さらに同じスキル内の分散が少ない。 • downstreamタスクに使いやすい！

15.

Model-based RL • x-y平面上にゴールがあり、そこへantが到達するタスク • 比較手法 • MBRL手法：PETS • random MBRL: モデルを、ランダム方策によって学習させる • Weak-Oracle MBRL : モデルを、ゴールをランダムに発生させてそこへの軌道を用いて学習させる • Strong-Oracle MBRL :モデルを、ゴールをテスト時と同様の位置に発生させてそこへの軌道を用いて学習させる

16.

Model-based RL • 左図：提案法は全てのベースラインを上回る（低いほうがいい） • Strong Oracleも上回る • 右図：提案法は新しいタスクに出会ってもサンプルが全く必要ない一方、Strong Oracleは新しいタスクに出会った時、ダイナミクスを学習するためのサンプルがまた必要になる。

17.

Hierarchical RL • タスク：antのナビゲーション • Skillを下位コントローラとして、それを選択するメタコントローラを学習させる。 • DIAYNと比較 • DIAYNのskillは分散が大きすぎて、メタコントローラを学習できない • 一方でDADSのskillはメタコントローラを学習可能 • メタコントローラはMPPIによりいいパフォーマンスが出ない

18.

Model-freeとの比較(goal-conditioned RL) • 状態に現在地からゴールまでのベクトルを含めたRL • 訓練時は[-10, 10]^2の領域で、テスト時は領域が広がる。 • DADS+MPPIは訓練時にない領域でも良いパフォーマンス • Model-freeはスパース報酬時に学習不能だが、DADS+MPPIは学習できる • スキルが事前に獲得できている利点

19.

まとめ • モデルベースのプランニングに用いられるようなスキルの獲得方法を提案 • 高次元でも用いることができ、学習されるスキルは低分散で、 downstreamタスクに用いやすい。 • タスク情報なしに、SOTAのタスク情報を使ったMBRLを上回る • 今後の展望：ロボティクスタスクへの適用、画像からスキル/ モデルを獲得、オフポリシーデータの活用（？）