[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning

217 Views

August 16, 19

スライド概要

2019/08/16
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Solar: Deep structured latent representations for model-based reinforcement learning Presentater: Kei Akuzawa, Matsuo Lab. D1 http://deeplearning.jp/ 1

2.

AGENDA • 書誌情報 • 発表のモチベーション • 背景 • Deep State Space Models • LQR • 手法 • 全体像 • 環境モデルの学習 • 環境モデルを用いたLQR • 関連研究 • 実験 • まとめ

3.

書誌情報 • タイトル • SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning • 著者 • Marvin Zhang, Sharad Vikram, Laura Smith, Pieter Abbeel, Matthew J. Johnson, Sergey Levin • UC Berkeleyが中心 • ICML2019 • 一言まとめ • 強化学習において,潜在変数の遷移が線形となるような深層状態空間モデル(Deep State Space Model, DSSM)を採用することにより,複雑な環境(観測が画像)におい てもLinnear-Quadratic Regulator(LQR)でコントローラーを学習できるようにした

4.

発表のモチベーション • 近年モデルベース強化学習(RL)の進展が目覚ましい.進展の背景: • 環境モデルがDeep Neural Netsを利用して画像等高次元の観測を扱えるように • Deep State Space Models (DSSM) に関する知見が整ってきた • 近年UC Berkley, Deepmind等がよく採用する環境モデルのクラス • 前回の発表では,DSSMの進展を中心に扱った.しかしDSSMをどうRLに組み入れ るかは以前発展途上 • https://www.slideshare.net/DeepLearningJP2016/dlsimpleimproved-dynamicsmodelplanet-vaerl • 今回発表する論文は,DSSMをRLに組み合わせる新しいアプローチを提案 • 制御理論で目にするLinnear-Quadratic Regulator(LQR)と組み合わせたい • (制御アルゴリズムの詳細わかってないです……orz) • 組み合わせるために,新たなDSSMを提案

5.

背景 Deep State Space Models • Notation: • 𝑜𝑡 : 観測(画像など) • 𝑎𝑡 : アクション • 𝑠𝑡 : 潜在変数(状態) 𝑎𝑡−2 𝑎𝑡−1 • State Space Models (SSM): 状態と観測が異なる系 • 𝑡期の状態𝑠𝑡 のみから観測𝑜𝑡 が決まるため,予測 が高速(観測の逐次的な生成が必要ない) • 状態𝑠𝑡 がマルコフ性を満たす(POMDPへの自然 な拡張になっている) • ただし𝑠𝑡 は観測できないので推論を行う 𝑠𝑡−1 𝑠𝑡 𝑜𝑡−1 𝑜𝑡

6.

背景 Deep State Space Models • 学習: • Amortized Inference (VAEと同様入力データで条件づけられた推論モデル) を用いることが多い • 生成モデル: • 𝑝 𝑜1:𝑇 |𝑎1:𝑇 = ‫ ׬‬ς𝑇𝑡=1 𝑝 𝑜𝑡 𝑠𝑡 𝑝 𝑠𝑡 𝑠𝑡−1 , 𝑎𝑡−1 𝑑𝑠1:𝑇 • 推論モデル: • 𝑞 𝑠1:𝑇 |𝑜1:𝑇 , 𝑎1:𝑇 = ς𝑇𝑡=1 𝑞 𝑠𝑡 |𝑜1:𝑇 . 𝑎𝑡 • ELBO: • 𝐸𝑞 𝑠1:𝑇 |𝑜1:𝑇 ,𝑎1:𝑇 log 𝑝 𝑜1:𝑇 |𝑠1:𝑇 𝑎𝑡−2 𝑎𝑡−1 𝑠𝑡−1 𝑠𝑡 𝑜𝑡−1 𝑜𝑡 − σ 𝐷𝐾𝐿 [𝑞 𝑠𝑡 |𝑜1:𝑇 , 𝑎1:𝑇 |𝑝 𝑠𝑡 𝑠𝑡−1 , 𝑎𝑡−1 ]

7.

[余談] DSSMとそのRLにおける用途 DSSMのRLにおける用途 DSSM自体の工夫 Solar 最適制御(潜在変数の遷移が線形 となるようなDSSMを採用すること により,画像観測においても Linnear-Quadratic Regulator(LQR) でコントローラーを学習) 潜在空間上の遷移が線形になるよ うに設計 PlaNet [Hafner+ 2019] プランニング(DSSMの潜在空間上 で高速なプランニングを行う) 長期の予測が行えるような補助タ スク(overshooting) SLAC [Lee+2019] 表現学習(DSSMで推論した潜在変 方策自体もグラフィカルモデルで 数がマルコフ性を満たすことを利 書く(Control as Inference) 用して,𝑠𝑡 を入力にとるactorを用い たsoft actor-criticを提案)

8.

背景 Linear Quadratic Regulator • 線形の時変環境モデル,二次形式のコスト関数が与えられている状況を想定 • for 𝑡 ∈ {1, … , 𝑇} 𝑠𝑡−1 • 𝑝 𝑠𝑡 𝑠𝑡−1 , 𝑎𝑡−1 = 𝑁 𝑭𝒕 𝑎 , 𝜮𝑡 𝑡−1 𝑇 𝑠𝑡 𝑠𝑡 1 𝑠𝑡 𝑇 𝑝 𝑐𝑡 𝑠𝑡 , 𝑎𝑡 = 𝑁( 𝑎 𝐶 𝑎 + 𝑐 𝑎 ) 2 𝑡 𝑡 𝑡 • コストが最小かつエントロピーが最大になる方策を陽に求めることができる(制 御理論のアルゴリズムが使えて嬉しい) • 基本GPS[Levin and Abeel 2014]で提案された改善版アルゴリズムと同じっぽい • (GPSのようにNeural Network PolicyにFittingしているわけではない???)

9.

手法 全体像 • 線形の環境モデルがあれば,制御理論のアルゴリズムが使える • Q. 観測が画像のとき,線形の環境モデルを立てることができるか…? • A. DNNで観測を写像した先の潜在空間上なら, 遷移を線形にしても良さそう! 𝑠𝑡−1 • 𝑝 𝑠𝑡 𝑠𝑡−1 , 𝑎𝑡−1 = 𝑁(𝑭 𝑎 , 𝜮) 𝑡−1 𝑭, 𝜮 𝑎𝑡−2 𝑡 = 2, … , 𝑇 𝑎𝑡−1 𝑠𝑡−1 𝑠𝑡 𝑜𝑡−1 𝑜𝑡

10.

手法 全体像 (1) 現在の方策で rollouts(訓練 データ)を収集 (4) LQRで方策を 訓練 (2) 環境モデルの 学習 (3) LQRに必要な パラメーター 𝑭,𝒕 𝜮𝒕 𝒕 を推論

11.

手法 環境モデルの学習 • LQRを使うために遷移モデルを線形に設計 • 𝑝 𝑠𝑡 𝑠𝑡−1 , 𝑎𝑡−1 𝑠𝑡−1 = 𝑁(𝑭 𝑎 , 𝜮) 𝑡−1 𝑭, 𝜮 where 𝑭, 𝜮~𝑀𝑁𝐼𝑊 𝜓, 𝜈, 𝑀0 , 𝑉 𝑎𝑡−2 • 𝑀𝑁𝐼𝑊: ガウスの共役事前分布 𝑎𝑡−1 (Matrix Normal inverse-Wishart distribution) • つまり,事後分布 𝑝 𝑭, 𝜮 𝑠𝑡 , 𝑠𝑡−1, 𝑎𝑡−1 嬉しい 𝑖 も𝑀𝑁𝐼𝑊で • LQRを使うためコスト関数も二次形式で設計し学習 𝑇 𝑠𝑡 𝑠𝑡 1 𝑠𝑡 𝑇 𝑝 𝑐𝑡 𝑠𝑡 , 𝑎𝑡 = 𝑁( 𝑎 𝐶 𝑎 + 𝑐 𝑎 ) 2 𝑡 𝑡 𝑡 𝑡 = 2, … , 𝑇 𝑠𝑡−1 𝑠𝑡 𝑜𝑡−1 𝑜𝑡

12.

手法 環境モデルの学習 • 特に関心のある分布 • 𝑝 𝑭, 𝜮 𝑜1:𝑇 , 𝑎1:𝑇 (𝑭, 𝜮 がLQRに必要) • 𝑝 𝑠1:𝑇 𝑜1:𝑇 , 𝑎1:𝑇 , 𝑭, 𝜮 (𝑠𝑡 が方策の入力として必要) • どちらも解析的にわからないので近似する • 𝑞 𝑭, 𝜮 = 𝑁𝑀𝐼𝑊(𝜓 ′, 𝜈 ′ , 𝑀0′ , 𝑉 ′ ) 𝑭, 𝜮 𝑎𝑡−2 • 𝑞 𝑠1:𝑇 𝑜1:𝑇 , 𝑎1:𝑇 , 𝑭, 𝜮 ∝ 𝑝(𝑠1 ) ς𝑇𝑡=1 𝑝 𝑠𝑡 𝑠𝑡−1 , 𝑎𝑡−1 , 𝑭, 𝜮 𝜓(𝑠𝑡 ; 𝑜𝑡 , 𝜙) • Product of Experts(PoE) を利用している • 𝜓 𝑠𝑡 ; 𝑜𝑡 , 𝜙 = 𝑁(𝜇, 𝜎 = 𝑒𝜙 (𝑜𝑡 )), 𝑒𝜙 はエンコーダ • うまいパラメータ共有 𝑡 = 2, … , 𝑇 𝑎𝑡−1 𝑠𝑡−1 𝑠𝑡 𝑜𝑡−1 𝑜𝑡

13.

手法 環境モデルの学習 • ELBO: • 𝐸𝑞 𝑠1:𝑇 |𝑜1:𝑇 log 𝑝 𝑜1:𝑇 |𝑠1:𝑇 − 再構成誤差 σ 𝐷𝐾𝐿 𝑞 𝑠𝑡 |𝑜𝑡 , 𝑠𝑡−1 , 𝑎𝑡−1, 𝑭, 𝜮 𝑝 𝑠𝑡 𝑠𝑡−1 , 𝑎𝑡−1 , 𝑭, 𝜮 − 𝐷𝐾𝐿 [𝑞 𝑭, 𝜮 |𝑝 𝑭, 𝜮 ] 近似分布と事前分布のKL項 • (基本的にVAEのELBOと同じ) • あとは, 𝑝 𝑜1:𝑇 |𝑠1:𝑇 , 𝜓(𝑠𝑡 ; 𝑜𝑡 , 𝜙), 𝑞 𝑭, 𝜮 のパラメータについてELBOの勾配で学習 • とくに𝑞 𝑭, 𝜮 = 𝑁𝑀𝐼𝑊(𝜓 ′, 𝜈 ′ , 𝑀0′ , 𝑉 ′ ) に関しては自然勾配が計算できる • 普通のAmortized Inference, VAEと違いここだけStochastic Variational Inference • 詳細はJohnson+2016

14.

手法 環境モデルを用いたLQR • 環境モデルを学習し以下が得られたと想定 • 𝑞∗ 𝑭, 𝜮 • 𝜓 ∗ 𝑠𝑡 ; 𝑜𝑡 , 𝜙 𝑇 𝑠 𝑠𝑡 𝑠𝑡 1 𝑡 ∗ 𝑇 𝑝 𝑐𝑡 𝑠𝑡 , 𝑎𝑡 = 𝑁( 𝑎 𝐶 𝑎 + 𝑐 𝑎 ) 2 𝑡 𝑡 𝑡 • コスト関数𝑝 ∗ 𝑐𝑡 𝑠𝑡 , 𝑎𝑡 は持っているので,あとは 𝑭,𝒕 𝜮𝒕 𝒕=𝟏,…𝑻 がLQRに必要 • ある軌道[𝑜0 , 𝑎0, 𝑐0 , … , 𝑜𝑇 , 𝑎 𝑇 , 𝑐𝑇 ]が与えられたとする.𝑝(𝑭𝒕 , 𝜮𝒕 |𝑜1:𝑇 , 𝑎1:𝑇 )を最も よく近似する𝑞 𝑭𝑡 , 𝜮𝒕 を求めたい • 𝑞∗ 𝑭, 𝜮 を𝑞 𝑭𝒕 , 𝜮𝒕 の事前分布として用いて(経験ベイズ),ELBOについて 𝑞(𝑠𝑡 | … )と𝑞 𝑭𝒕 , 𝜮𝒕 のEM法を解けば最適な𝑞 𝑭𝑡 , 𝜮𝒕 が求まる • ( 最適な𝑞(𝑠𝑡 | … )と𝑞 𝑭𝒕, 𝜮𝒕 はClosed Formで書ける)

15.

関連研究 • DSSMの遷移モデルの設計が大事 • 特に線形だと制御理論の知見を活かせる,遷移行列のスペクトルが意味を持 つ[Johnson+2016]など,メリットがある • 他に,線形の遷移モデルを組んでいる研究はあるだろうか?どんな生成/推論モ デルが好ましいだろうか • (論文自体で紹介されている関連研究ではなく,発表者から見た関連研究です)

16.

関連研究 E2C • 「潜在空間上で線形の遷移モデルを学習し,それをLQRに利用する」というコン セプトの初出 • 定式化がDSSMになっていない => 潜在変数がマルコフ性を満たす保証がない [PlaNetで指摘] 𝑡𝑟𝑎𝑛𝑠 • 遷移行列のパラメータ𝐴𝑡 は𝐴𝑡 = ℎ𝜓 (𝑧𝑡 )で求める • ただし遷移行列𝐴𝑡 はパラメータ数が𝑂(𝑛𝑟𝑜𝑤 𝑛𝑐𝑜𝑙 )でスケールしないので,実用 上は𝐴𝑡 = (𝑰 + 𝑣𝑡 𝑟𝑡𝑇 )と置いて𝑣𝑡 𝑧𝑡 , 𝑟𝑡 (𝑧𝑡 )を求める

17.

関連研究 Deep Variational Bayes Filters • Amortized Inferenceで線形の遷移を作る方法の提案 • 遷移を次のように設計: 𝑧𝑡 = 𝐴𝑡 𝑧𝑡 + 𝐵𝑡 𝑢𝑡 + 𝑛𝑜𝑖𝑠𝑒 (𝑖) (𝑖) • where 𝐴𝑡 = σ𝑀 , ただし 𝛼𝑡 = 𝑓𝜓 𝑧𝑡 , 𝑢𝑡 , 𝑖=1 𝛼𝑡 𝐴 • データ非依存の行列𝐴(𝑖) をM個用意しておいて,そのM個の行列に対する重み をデータ点依存でInferenceしている • (おそらく)ナイーブにAmortized Inferenceを行って(𝑞(𝐴𝑡 |𝑜1:𝑇 )のように 設計して),データ点ごとに遷移行列を計算するのは難しいから

18.

関連研究 遷移行列へのInferenceまとめ 直感的 数式的 Solar Stochastic Variational Inference 𝑞 ∗ 𝑭, 𝜮 = 𝑀𝑁𝐼𝑊 𝜓 ′, 𝜈 ′ , 𝑀0′, 𝑉 ′ 事後分布𝑞 𝑭𝒕 , 𝜮𝒕 |𝑠1:𝑇 , 𝑎1:𝑇 も解析 的に求まる E2C[Watter+2015] 𝐴𝑡 = ℎ𝑡𝑟𝑎𝑛𝑠 (𝑧𝑡 )として,パラメー 𝜓 タ𝜓を学習 DVBF[Karl+2017] Amortized Inference (データ点非 依存なM個の遷移行列と,デー タ点依存の重みの線形和) 𝐴𝑡 = ℎ𝑡𝑟𝑎𝑛𝑠 (𝑧𝑡 ) 𝜓 𝑀 (𝑖) 𝐴𝑡 = ෍ 𝛼𝑡 𝐴(𝑖) , 𝑖=1 𝑤ℎ𝑒𝑟𝑒 𝛼𝑡 = 𝑓𝜓 𝑧𝑡 , 𝑢𝑡 結局どれが良いのかは良くわからないが,なんとなくSolarが使い回しやすそう

19.

実験 • 比較手法 • PPO: モデルフリーのベースライン • LQR-FLM from pixels: 表現学習なし • (当然)全く学習できず • Deep Visual Foresight(DVF): SOTAモデルベースRL • pixel空間でMPCをやらせる. • RCE: E2Cの改善版 • VAE ablation: Inferenceモデルの学習に系列情報を考慮しない • 推論モデルを𝑞(𝑠𝑡 |𝑜𝑡 )にして,遷移モデルを後から学習している • MPC baseline: 環境のモデルをPlanningに用いる • おそらくPlaNetのようにDSSMの潜在空間をPlanningに使ってる

20.

実験 • モデルベースはサンプル効率が良い • 環境モデルの事前訓練を行うためMPC baselineは序盤強いが,訓練が進むにつれ SOLARが優位 • RCEが全然動いてないのはなぜ…? • RCEの論文と解いてるタスクは違うらしい

21.

実験 Sawyer Block Stacking • 初期位置が違う3つのタスク(右上) • 特に難しいタスク3ではMPCベースライ ンより提案手法の方が良い • 長期の予測を行うのが難しいので, 環境モデルをPlanningに使うより policy improvementに使う方が良い?

22.

感想 • DSSMをRLと組み合わせる新しいアプローチの提案として興味深い研究 • 線形の遷移を作る方法はいくつかあるので,そのあたりの検証も欲しい • また線形の遷移を作った時に,非線形の遷移モデルを持つDSSMと比べて尤度が どうなるか等も知りたい • 制御説明できなくてすみません

23.

References • D. Hafner, T. Lillicrap, I. Fischer, R. Villegas, D. Ha, H. Lee, and J. Davidson. Learning latent dynamics for planning from pixels. In International Conference on Machine Learning (ICML), 2019. • A. X. Lee, A. Nagabandi, P. Abbeel, S. Levine. Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model, arxiv, 2019. • Levine, S. and Abbeel, P. Learning neural network policies with guided policy search under unknown dynamics. In NIPS, 2014. • Johnson, M., Duvenaud, D., Wiltschko, A., Datta, S., and Adams, R. Composing graphical models with neural networks for structured representations and fast inference. In NIPS, 2016. • Watter, M., Springenberg, J., Boedecker, J., and Riedmiller, M. Embed to control: A locally linear latent dynamics model for control from raw images. In NIPS, 2015 • M. Karl, M. Soelch, J. Bayer, and P. van der Smagt. Deep variational bayes filters: Unsupervised learning of state space models from raw data. In Proceedings of ICLR, 2017.