[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization

275 Views

July 05, 19

スライド概要

2019/07/05
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Model-Based Reinforcement Learning via Meta-Policy Optimization Keno Harada, UT PSI 3rd http://deeplearning.jp/ 1

2.

書誌情報 • タイトル: Model-Based Reinforcement Learning via Meta-Policy Optimization(CoRL 2018) • 著者: Ignasi Clavera, Jonas Rothfuss, John Schulman, Yasuhiro Fujita, Tamim Asfour, Pieter Abbeel (UC Berkeley, KIT, OpenAI, PFN) • ICMLでのPieter Abbeelのセッション中に紹介(しかしskipされていた) – Some of our Explorations of Exploration in RL • ダイナミクスモデル学習の探索 • その他: – – – – Arxiv: https://arxiv.org/pdf/1809.05214.pdf Webpage: https://sites.google.com/view/mb-mpo/home?authuser=0 Talk: https://www.facebook.com/icml.imls/videos/2265408103721327/ Slides: https://www.dropbox.com/s/4t1a3dpldgqtqk6/2019_06_15_ICML%20Exploration% 20in%20RL%20workshop.pdf?dl=0 – 松嶋さん評価: 星5つ 2

3.

ICML セッションより 10分でレゴブロックを積むタスクを学習したらしい(論文中には言及なし, 動画も最後まで見れなかった) 3

4.

アジェンダ 1. 2. 3. 4. 5. 6. 背景 概要 提案手法 実験結果 まとめ 疑問点 4

5.

背景 背景 • モデルフリー – 良い性能を発揮するが学習にdataが大量に必要 • NN使うとよりデータが必要に • Roboticsのようなtaskではdataを集めるのに時間がかかる • モデルベース – 環境のダイナミクスをモデル化し学習を効率的に – 正確な環境のダイナミクスの学習難しい – モデルバイアス問題 • ダイナミクスモデルの学習が不十分なため良い方策を学習できない 5

6.

背景 モデルバイアス問題 Image from http://mlg.eng.cam.ac.uk/pub/pdf/DeiRas11.pdf Image from http://rail.eecs.berkeley.edu/deeprlcourse/static/slides/lec12.pdf 6

7.

背景 ダイナミクスモデルの不正確性への対応策(先行研究) • ダイナミクスモデルのアンサンブルを使用した方法 – Model-Ensemble Trust-Region Policy Optimization(ME-TRPO)など • オンライン適応していく方法 – One-Shot Learning of Manipulation Skills with Online Dynamics Adaptation and Neural Network Priorsなど • 困難なタスクではうまくいかない • Model Predictive Control – 各ステップにおいてre-planning – 計算コストの大きさや行動の評価の難しさ • Robust policy optimization – どのようなダイナミクスモデルでもよく立ち回るような方策を学習 – over-conservative(?)な方策になりがち 7

8.

概要 提案手法: Model-Based Meta-Policy-Optimization(MB-MPO)の気持ち • ダイナミクスモデルが正しく学習されるという望み?前提?から依存性 をなくす • ダイナミクスモデルを複数学習し, その中の任意のモデルに対して 1step方策勾配を更新すれば適応するようなpolicyをメタ学習する • 異なるダイナミクスモデルでも最適な行動をとる方策を学ぶのではな く, ダイナミクスモデルに対して1step更新方策をとることで対応させ, メタpolicyがアンサンブル全体において一貫性のあるダイナミクスの 予測を内部化するよう方向づける – ??? 8

9.

概要 モデルベース強化学習 • Dyna-style – リアルデータを集めダイナミクモデルを学習し, そのモデルが仮想データを作 成し(simulationし)それを元に方策を更新 • ME-TRPO, SLBO, MB-MPO • Policy Search with Backpropagation through Time – ダイナミクスモデルの勾配を使って方策を更新 • PILCO, iLQG, GPS, SVG • Shooting Algorithm – Model predictive control系 • RS, MB-MF, PETS-RS, PETS-CEM 9

10.

概要 • メタ学習: – 新しいシナリオやタスクに少数のサンプルでうまく適応するようなモデルを学 習 • メタ強化学習 – 報酬関数あるいは遷移関数が異なるMDPタスクの集合から一つのMDPタスク を取り出した時に素早く最適方策を学ぶような学習アルゴリズムを学ぶ Image from https://drive.google.com/file/d/1DuHyotdwEAEhmuHQWwRosdiVBVGm8uYx/view 10

11.

概要 MAML: どんなtaskにも数stepで最適化できるような共通の初期パラ メータを求める – 近藤さんの過去資料https://www.slideshare.net/DeepLearningJP2016/modelagnostic-metalearning-for-fastadaptation-of-deep-network Slide from https://drive.google.com/file/d/1DuHyotdwEAEhmuHQW wRosdiVBVGm8uYx/view 11

12.

提案手法 MB-MPO 12

13.

提案手法 ダイナミクスモデルの学習 • それぞれのモデル初期値ランダム, 学習に使うデータも異なるように 設定 • 適応stepを経た方策でサンプルデータを集め, ダイナミクスモデルの 学習に使用 13

14.

提案手法 • ダイナミクスモデルの学習 14

15.

提案手法 ダイナミクスモデルを使った方策のメタ学習 • Gradient-based メタ学習のMAMLを使用 • 環境のダイナミクスが異なるタスク間においてのメタ学習問題 – Reward functionは同じ • 方策更新の際にはダイナミクスモデルを使用してroll-outを行い報酬 を計算し更新 15

16.

提案手法 ダイナミクスモデルを使った方策のメタ学習 VPG TRPO 16

17.

実験結果 • 既存のモデルベース・モデルフリーの手法と比べてサンプル効率・性 能はどうか – Mujocoの6つのタスクで検証 – https://sites.google.com/view/mb-mpo/videos?authuser=0 • ダイナミクスモデルの不確実性と方策の可塑性 • MB-MPOの頑健性 17

18.

実験結果(モデルフリーとの比較) 18

19.

実験結果(既存モデルベースとの比較) 19

20.

実験結果(ダイナミクスモデルの不確実性と方策の可塑性) [0, 0]から離れるにつれ低い精度予測と高いKL-divergence 20

21.

実験結果(MB-MPOの頑健性) ダイナミクスモデルの予測にノイズを加えた実験の比較(half-cheetah) 21

22.

実験結果(MB-MPOの頑健性(?)) α=0.001とα=0(no-adapt)の比較 Planningを行なっているわけではな いのに何故この実験を? メタ学習の必要性を言いたいのか? 22

23.

まとめと今後の展望 • 複数のダイナミクスモデルを使い方策をメタ学習するMB-MPOを提 唱 • モデルフリー並みの性能をよりsample efficientに出す • 既存のモデルベースで課題であったモデルバイアス問題への新たな対 応策 • 複数のダイナミクスモデルを使用するのではなくベイジアンNNを 使ってダイナミクスモデルを学習する • Real-worldロボティクスへの応用(すでに進行中?) 23

24.

Benchmarking Model-based Reinforcement Learning(7/3) いくつかのタスクでmodel basedで最高性能 Long horizon complex domainsにはあまりいい性能 を示さない 24

25.

Tailored data collection • 適応step後のpolicyでリアルデータをサンプルしているため集められ るデータが多様(という主張) – Post-update方策がoverfit, ダイナミクスモデルの予測が正しく予測できてい ないところのサンプルを集める(という主張) 25

26.

Hyperparameter study 26