[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning

226 Views

August 16, 19

#deep learning #Deep Learning #Reinforcement Learning #Deep State Space Models #LQR #DSSM

スライド概要

2019/08/16
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 83.3K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 53K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 38.3K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 33.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 30.6K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Solar: Deep structured latent representations for model-based reinforcement learning Presentater: Kei Akuzawa, Matsuo Lab. D1 http://deeplearning.jp/ 1

http://deeplearning.jp/

AGENDA • 書誌情報 • 発表のモチベーション • 背景 • Deep State Space Models • LQR • 手法 • 全体像 • 環境モデルの学習 • 環境モデルを用いたLQR • 関連研究 • 実験 • まとめ

書誌情報 • タイトル • SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning • 著者 • Marvin Zhang, Sharad Vikram, Laura Smith, Pieter Abbeel, Matthew J. Johnson, Sergey Levin • UC Berkeleyが中心 • ICML2019 • 一言まとめ • 強化学習において，潜在変数の遷移が線形となるような深層状態空間モデル（Deep State Space Model, DSSM）を採用することにより，複雑な環境（観測が画像）においてもLinnear-Quadratic Regulator（LQR）でコントローラーを学習できるようにした

発表のモチベーション • 近年モデルベース強化学習（RL）の進展が目覚ましい．進展の背景： • 環境モデルがDeep Neural Netsを利用して画像等高次元の観測を扱えるように • Deep State Space Models (DSSM) に関する知見が整ってきた • 近年UC Berkley, Deepmind等がよく採用する環境モデルのクラス • 前回の発表では，DSSMの進展を中心に扱った．しかしDSSMをどうRLに組み入れるかは以前発展途上 • https://www.slideshare.net/DeepLearningJP2016/dlsimpleimproved-dynamicsmodelplanet-vaerl • 今回発表する論文は，DSSMをRLに組み合わせる新しいアプローチを提案 • 制御理論で目にするLinnear-Quadratic Regulator（LQR）と組み合わせたい • （制御アルゴリズムの詳細わかってないです……orz） • 組み合わせるために，新たなDSSMを提案

https://www.slideshare.net/DeepLearningJP2016/dlsimpleimproved-dynamics-modelplanet-vaerl

背景 Deep State Space Models • Notation: • 𝑜𝑡 : 観測（画像など） • 𝑎𝑡 : アクション • 𝑠𝑡 : 潜在変数（状態） 𝑎𝑡−2 𝑎𝑡−1 • State Space Models (SSM): 状態と観測が異なる系 • 𝑡期の状態𝑠𝑡 のみから観測𝑜𝑡 が決まるため，予測が高速（観測の逐次的な生成が必要ない） • 状態𝑠𝑡 がマルコフ性を満たす（POMDPへの自然な拡張になっている） • ただし𝑠𝑡 は観測できないので推論を行う 𝑠𝑡−1 𝑠𝑡 𝑜𝑡−1 𝑜𝑡

[余談] DSSMとそのRLにおける用途 DSSMのRLにおける用途 DSSM自体の工夫 Solar 最適制御（潜在変数の遷移が線形となるようなDSSMを採用することにより，画像観測においても Linnear-Quadratic Regulator（LQR）でコントローラーを学習）潜在空間上の遷移が線形になるように設計 PlaNet [Hafner+ 2019] プランニング（DSSMの潜在空間上で高速なプランニングを行う）長期の予測が行えるような補助タスク（overshooting） SLAC [Lee+2019] 表現学習（DSSMで推論した潜在変方策自体もグラフィカルモデルで数がマルコフ性を満たすことを利書く（Control as Inference）用して，𝑠𝑡 を入力にとるactorを用いたsoft actor-criticを提案）

背景 Linear Quadratic Regulator • 線形の時変環境モデル，二次形式のコスト関数が与えられている状況を想定 • for 𝑡 ∈ {1, … , 𝑇} 𝑠𝑡−1 • 𝑝 𝑠𝑡 𝑠𝑡−1 , 𝑎𝑡−1 = 𝑁 𝑭𝒕 𝑎 , 𝜮𝑡 𝑡−1 𝑇 𝑠𝑡 𝑠𝑡 1 𝑠𝑡 𝑇 𝑝 𝑐𝑡 𝑠𝑡 , 𝑎𝑡 = 𝑁( 𝑎 𝐶 𝑎 + 𝑐 𝑎 ) 2 𝑡 𝑡 𝑡 • コストが最小かつエントロピーが最大になる方策を陽に求めることができる（制御理論のアルゴリズムが使えて嬉しい） • 基本GPS[Levin and Abeel 2014]で提案された改善版アルゴリズムと同じっぽい • （GPSのようにNeural Network PolicyにFittingしているわけではない？？？）

手法全体像 • 線形の環境モデルがあれば，制御理論のアルゴリズムが使える • Q. 観測が画像のとき，線形の環境モデルを立てることができるか…？ • A. DNNで観測を写像した先の潜在空間上なら，遷移を線形にしても良さそう！ 𝑠𝑡−1 • 𝑝 𝑠𝑡 𝑠𝑡−1 , 𝑎𝑡−1 = 𝑁(𝑭 𝑎 , 𝜮) 𝑡−1 𝑭, 𝜮 𝑎𝑡−2 𝑡 = 2, … , 𝑇 𝑎𝑡−1 𝑠𝑡−1 𝑠𝑡 𝑜𝑡−1 𝑜𝑡

10.

手法全体像 (1) 現在の方策で rollouts（訓練データ）を収集 (4) LQRで方策を訓練 (2) 環境モデルの学習 (3) LQRに必要なパラメーター 𝑭,𝒕 𝜮𝒕 𝒕 を推論

11.

手法環境モデルの学習 • LQRを使うために遷移モデルを線形に設計 • 𝑝 𝑠𝑡 𝑠𝑡−1 , 𝑎𝑡−1 𝑠𝑡−1 = 𝑁(𝑭 𝑎 , 𝜮) 𝑡−1 𝑭, 𝜮 where 𝑭, 𝜮~𝑀𝑁𝐼𝑊 𝜓, 𝜈, 𝑀0 , 𝑉 𝑎𝑡−2 • 𝑀𝑁𝐼𝑊: ガウスの共役事前分布 𝑎𝑡−1 (Matrix Normal inverse-Wishart distribution) • つまり，事後分布 𝑝 𝑭, 𝜮 𝑠𝑡 , 𝑠𝑡−1, 𝑎𝑡−1 嬉しい 𝑖 も𝑀𝑁𝐼𝑊で • LQRを使うためコスト関数も二次形式で設計し学習 𝑇 𝑠𝑡 𝑠𝑡 1 𝑠𝑡 𝑇 𝑝 𝑐𝑡 𝑠𝑡 , 𝑎𝑡 = 𝑁( 𝑎 𝐶 𝑎 + 𝑐 𝑎 ) 2 𝑡 𝑡 𝑡 𝑡 = 2, … , 𝑇 𝑠𝑡−1 𝑠𝑡 𝑜𝑡−1 𝑜𝑡

12.

手法環境モデルの学習 • 特に関心のある分布 • 𝑝 𝑭, 𝜮 𝑜1:𝑇 , 𝑎1:𝑇 (𝑭, 𝜮 がLQRに必要) • 𝑝 𝑠1:𝑇 𝑜1:𝑇 , 𝑎1:𝑇 , 𝑭, 𝜮 (𝑠𝑡 が方策の入力として必要) • どちらも解析的にわからないので近似する • 𝑞 𝑭, 𝜮 = 𝑁𝑀𝐼𝑊(𝜓 ′, 𝜈 ′ , 𝑀0′ , 𝑉 ′ ) 𝑭, 𝜮 𝑎𝑡−2 • 𝑞 𝑠1:𝑇 𝑜1:𝑇 , 𝑎1:𝑇 , 𝑭, 𝜮 ∝ 𝑝(𝑠1 ) ς𝑇𝑡=1 𝑝 𝑠𝑡 𝑠𝑡−1 , 𝑎𝑡−1 , 𝑭, 𝜮 𝜓(𝑠𝑡 ; 𝑜𝑡 , 𝜙) • Product of Experts(PoE) を利用している • 𝜓 𝑠𝑡 ; 𝑜𝑡 , 𝜙 = 𝑁(𝜇, 𝜎 = 𝑒𝜙 (𝑜𝑡 )), 𝑒𝜙 はエンコーダ • うまいパラメータ共有 𝑡 = 2, … , 𝑇 𝑎𝑡−1 𝑠𝑡−1 𝑠𝑡 𝑜𝑡−1 𝑜𝑡

13.

手法環境モデルの学習 • ELBO: • 𝐸𝑞 𝑠1:𝑇 |𝑜1:𝑇 log 𝑝 𝑜1:𝑇 |𝑠1:𝑇 − 再構成誤差 σ 𝐷𝐾𝐿 𝑞 𝑠𝑡 |𝑜𝑡 , 𝑠𝑡−1 , 𝑎𝑡−1, 𝑭, 𝜮 𝑝 𝑠𝑡 𝑠𝑡−1 , 𝑎𝑡−1 , 𝑭, 𝜮 − 𝐷𝐾𝐿 [𝑞 𝑭, 𝜮 |𝑝 𝑭, 𝜮 ] 近似分布と事前分布のKL項 • （基本的にVAEのELBOと同じ） • あとは， 𝑝 𝑜1:𝑇 |𝑠1:𝑇 , 𝜓(𝑠𝑡 ; 𝑜𝑡 , 𝜙), 𝑞 𝑭, 𝜮 のパラメータについてELBOの勾配で学習 • とくに𝑞 𝑭, 𝜮 = 𝑁𝑀𝐼𝑊(𝜓 ′, 𝜈 ′ , 𝑀0′ , 𝑉 ′ ) に関しては自然勾配が計算できる • 普通のAmortized Inference, VAEと違いここだけStochastic Variational Inference • 詳細はJohnson+2016

14.

手法環境モデルを用いたLQR • 環境モデルを学習し以下が得られたと想定 • 𝑞∗ 𝑭, 𝜮 • 𝜓 ∗ 𝑠𝑡 ; 𝑜𝑡 , 𝜙 𝑇 𝑠 𝑠𝑡 𝑠𝑡 1 𝑡 ∗ 𝑇 𝑝 𝑐𝑡 𝑠𝑡 , 𝑎𝑡 = 𝑁( 𝑎 𝐶 𝑎 + 𝑐 𝑎 ) 2 𝑡 𝑡 𝑡 • コスト関数𝑝 ∗ 𝑐𝑡 𝑠𝑡 , 𝑎𝑡 は持っているので，あとは 𝑭,𝒕 𝜮𝒕 𝒕=𝟏,…𝑻 がLQRに必要 • ある軌道[𝑜0 , 𝑎0, 𝑐0 , … , 𝑜𝑇 , 𝑎 𝑇 , 𝑐𝑇 ]が与えられたとする．𝑝(𝑭𝒕 , 𝜮𝒕 |𝑜1:𝑇 , 𝑎1:𝑇 )を最もよく近似する𝑞 𝑭𝑡 , 𝜮𝒕 を求めたい • 𝑞∗ 𝑭, 𝜮 を𝑞 𝑭𝒕 , 𝜮𝒕 の事前分布として用いて（経験ベイズ），ELBOについて 𝑞(𝑠𝑡 | … )と𝑞 𝑭𝒕 , 𝜮𝒕 のEM法を解けば最適な𝑞 𝑭𝑡 , 𝜮𝒕 が求まる • （最適な𝑞(𝑠𝑡 | … )と𝑞 𝑭𝒕, 𝜮𝒕 はClosed Formで書ける）

15.

関連研究 • DSSMの遷移モデルの設計が大事 • 特に線形だと制御理論の知見を活かせる，遷移行列のスペクトルが意味を持つ[Johnson+2016]など，メリットがある • 他に，線形の遷移モデルを組んでいる研究はあるだろうか？どんな生成/推論モデルが好ましいだろうか • （論文自体で紹介されている関連研究ではなく，発表者から見た関連研究です）

16.

関連研究 E2C • 「潜在空間上で線形の遷移モデルを学習し，それをLQRに利用する」というコンセプトの初出 • 定式化がDSSMになっていない => 潜在変数がマルコフ性を満たす保証がない [PlaNetで指摘] 𝑡𝑟𝑎𝑛𝑠 • 遷移行列のパラメータ𝐴𝑡 は𝐴𝑡 = ℎ𝜓 (𝑧𝑡 )で求める • ただし遷移行列𝐴𝑡 はパラメータ数が𝑂(𝑛𝑟𝑜𝑤 𝑛𝑐𝑜𝑙 )でスケールしないので，実用上は𝐴𝑡 = (𝑰 + 𝑣𝑡 𝑟𝑡𝑇 )と置いて𝑣𝑡 𝑧𝑡 , 𝑟𝑡 (𝑧𝑡 )を求める

17.

関連研究 Deep Variational Bayes Filters • Amortized Inferenceで線形の遷移を作る方法の提案 • 遷移を次のように設計: 𝑧𝑡 = 𝐴𝑡 𝑧𝑡 + 𝐵𝑡 𝑢𝑡 + 𝑛𝑜𝑖𝑠𝑒 (𝑖) (𝑖) • where 𝐴𝑡 = σ𝑀 , ただし 𝛼𝑡 = 𝑓𝜓 𝑧𝑡 , 𝑢𝑡 , 𝑖=1 𝛼𝑡 𝐴 • データ非依存の行列𝐴(𝑖) をM個用意しておいて，そのM個の行列に対する重みをデータ点依存でInferenceしている • （おそらく）ナイーブにAmortized Inferenceを行って（𝑞(𝐴𝑡 |𝑜1:𝑇 )のように設計して），データ点ごとに遷移行列を計算するのは難しいから

18.

関連研究遷移行列へのInferenceまとめ直感的数式的 Solar Stochastic Variational Inference 𝑞 ∗ 𝑭, 𝜮 = 𝑀𝑁𝐼𝑊 𝜓 ′, 𝜈 ′ , 𝑀0′, 𝑉 ′ 事後分布𝑞 𝑭𝒕 , 𝜮𝒕 |𝑠1:𝑇 , 𝑎1:𝑇 も解析的に求まる E2C[Watter+2015] 𝐴𝑡 = ℎ𝑡𝑟𝑎𝑛𝑠 (𝑧𝑡 )として，パラメー 𝜓 タ𝜓を学習 DVBF[Karl+2017] Amortized Inference (データ点非依存なM個の遷移行列と，データ点依存の重みの線形和) 𝐴𝑡 = ℎ𝑡𝑟𝑎𝑛𝑠 (𝑧𝑡 ) 𝜓 𝑀 (𝑖) 𝐴𝑡 = ෍ 𝛼𝑡 𝐴(𝑖) , 𝑖=1 𝑤ℎ𝑒𝑟𝑒 𝛼𝑡 = 𝑓𝜓 𝑧𝑡 , 𝑢𝑡 結局どれが良いのかは良くわからないが，なんとなくSolarが使い回しやすそう

19.

実験 • 比較手法 • PPO: モデルフリーのベースライン • LQR-FLM from pixels: 表現学習なし • （当然）全く学習できず • Deep Visual Foresight(DVF): SOTAモデルベースRL • pixel空間でMPCをやらせる． • RCE: E2Cの改善版 • VAE ablation: Inferenceモデルの学習に系列情報を考慮しない • 推論モデルを𝑞(𝑠𝑡 |𝑜𝑡 )にして，遷移モデルを後から学習している • MPC baseline: 環境のモデルをPlanningに用いる • おそらくPlaNetのようにDSSMの潜在空間をPlanningに使ってる

20.

実験 • モデルベースはサンプル効率が良い • 環境モデルの事前訓練を行うためMPC baselineは序盤強いが，訓練が進むにつれ SOLARが優位 • RCEが全然動いてないのはなぜ…？ • RCEの論文と解いてるタスクは違うらしい

21.

実験 Sawyer Block Stacking • 初期位置が違う3つのタスク（右上） • 特に難しいタスク3ではMPCベースラインより提案手法の方が良い • 長期の予測を行うのが難しいので，環境モデルをPlanningに使うより policy improvementに使う方が良い？

22.

感想 • DSSMをRLと組み合わせる新しいアプローチの提案として興味深い研究 • 線形の遷移を作る方法はいくつかあるので，そのあたりの検証も欲しい • また線形の遷移を作った時に，非線形の遷移モデルを持つDSSMと比べて尤度がどうなるか等も知りたい • 制御説明できなくてすみません

23.

References • D. Hafner, T. Lillicrap, I. Fischer, R. Villegas, D. Ha, H. Lee, and J. Davidson. Learning latent dynamics for planning from pixels. In International Conference on Machine Learning (ICML), 2019. • A. X. Lee, A. Nagabandi, P. Abbeel, S. Levine. Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model, arxiv, 2019. • Levine, S. and Abbeel, P. Learning neural network policies with guided policy search under unknown dynamics. In NIPS, 2014. • Johnson, M., Duvenaud, D., Wiltschko, A., Datta, S., and Adams, R. Composing graphical models with neural networks for structured representations and fast inference. In NIPS, 2016. • Watter, M., Springenberg, J., Boedecker, J., and Riedmiller, M. Embed to control: A locally linear latent dynamics model for control from raw images. In NIPS, 2015 • M. Karl, M. Soelch, J. Bayer, and P. van der Smagt. Deep variational bayes filters: Unsupervised learning of state space models from raw data. In Proceedings of ICLR, 2017.