[DL輪読会]モデルベース強化学習とEnergy Based Model

1.1K Views

November 29, 19

#deep learning #Deep Learning #Model-Based Reinforcement Learning #Energy-Based Models #Machine Learning #Reinforcement Learning

スライド概要

2019/11/29
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 63.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.6K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 45K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 44.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 42.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] モデルベース強化学習とEnergy Based Model Reiji Hatsugai, DeepX http://deeplearning.jp/ 1

http://deeplearning.jp/

2 モチベーション • モデルを学習して、それを活かす形で方策を得る、モデルベース強化学習が最近熱い – PlaNet, SLAC, MuZeroとか • CoRLの論文を眺めていて、モデルベース強化学習してる論文をいくつか発見 • その中でEnergy Based Modelと絡めて提案していて、Energy Based Modelの使い方が面白い論文が２つあったのでまとめて紹介

書誌情報 • Model-Based Planning with Energy-Based Models – Yilun Du, Toru Lin, Igor Mordatch, MIT, Google Brain • Regularizing Model-Based Planning with Energy-Based Models – Rinu Boney, Juho Kannala, Alexander Ilin, Aalto Univ • CoRL2019 3

前提知識 • ベーシックな（？）モデルベース強化学習 – モデルの学習 – モデルの活用方法 • Energy Based Model – 生成モデル 4

モデルの学習 • 状態s_tと行動a_tを受け取り、次状態s_t+1を推定するネットワークの学習 5

モデルの活用方法：MPC • 行動の系列をランダムにサンプルし、現在の状態からサンプルされた行動の系列を適用した時にどのような状態系列になるか推定 • 推定された状態系列と、行動系列に対して、報酬関数を適用し、報酬関数が最大化される行動系列を選択 • 選択された行動系列の最初の一つを実際に起こす行動として選択 6

モデルの活用方法：CEM • MPCの時と同じ目的関数をブラックボックス関数として、Cross Entropy Methodで最適化 – CEM：行動系列をガウス分布からサンプルし、最適化されるブラックボックス関数の評価値を取得。取得された値に応じてサンプルする分布を変化させていき、評価値を向上させる 7

生成モデル • ここでいうエネルギー関数は、正規化されていない対数尤度関数 • 一般に、確率モデルを求める際に、分母の計算は難しい（積分操作を行なうのが難しい） • エネルギー関数からサンプルする方法として、MCMCやランジュバン方程式を使用したものがある 8

Regularizing Model-Based Planning with Energy-Based Models • モデルベース強化学習の問題：間違ったモデルの推定を元に行動系列を最適化してしまうことで、現実では全く役に立たない行動を選択してしまう • この論文では、状態、行動、次状態のトリプレットの対数尤度を報酬関数に追加 • 報酬関数を最大化しながら、尤度が低い（観測される確率が小さい）モデルの推定を弾くことで、上記問題を解決しようとしている 9

10.

尤度関数からエネルギー関数へ • 対数尤度の分母の項は、行動系列に依存しない値なので、最終的にエネルギー関数のみが目的関数の項に残る 10

11.

エネルギー関数の構成方法 • Deep Energy Estimator Network (DEEN) という手法とDenoising Auto Encoder (DAE) という手法でエネルギー関数の推定を実施 11

12.

実験 • 学習済みモデルを利用したモデル活用方法の比較実験 • モデルの学習を含むゼロからの学習曲線 • エネルギー関数の効果 12

13.

学習済みモデルを利用したモデル活用方法の比較実験 • PETSの学習で得られたモデルを利用して、モデルの活用方法だけを表の4種類比較 • 探索方法にCEMを用いて、DEENによってエネルギー関数の追加報酬を加えたものが一番高い報酬値となった 13

14.

モデルの学習を含むゼロからの学習曲線 • PETS, GPと比較をしている • 比較対象（赤、黄）よりサンプル効率よく学習していることがわかる 14

15.

エネルギー関数の効果 • モデルを使って予想された収益（赤線）に対して、実際にその時の行動を実施した時の収益（黒線）を表示した図 • 赤線と黒線が合致しているほど、モデルを使った予想通りに実際の環境で実行ができている • DEENを使ったRegularizationだと、赤線と黒線がかなり一致している 15

16.

Regularizing Model-Based Planning with Energy-Based Modelsまとめ • 学習済みモデルが存在する時に、エネルギー関数を考えることで、性能を向上させることができた • フルスクラッチで学習する場合においても、エネルギー関数での Regularizingによって高いサンプル効率で学習が可能ということがわかった 16

17.

Model-Based Planning with Energy-Based Models • モデルの学習を陽に行わずに、状態の遷移（状態と次状態のタプル）に関してエネルギー関数を学習し、エネルギー関数を最小化しながら、最終目的状態との距離も最小化 – エネルギー関数の計算に行動の項は一切入らない。状態に対してのみ – 最終的な行動の選択の際は、状態系列を入力としてそれを達成する行動を出力するネットワークを用いる 17

18.

エネルギー関数について • 状態のタプルについての正規化されていない対数尤度 • エネルギー関数は、GANのような形で学習され、実際にサンプルされたデータに対するエネルギーを最小化し、エネルギー関数を用いてサンプルされたデータに対するエネルギーを最大化するように学習する 18

19.

MPPI • エネルギー関数からのデータをサンプルする際、MCMCやランジュバン方程式を使ったものではなく、重要度重み付けを使ったMPPIを用いてサンプルを行なう • 一つまえの変数からガウシアンノイズを加えて、エネルギー関数の重み付けで足し合わせる 19

20.

最終的な目的関数 • 最終状態で目的とする状態に到達することを条件付けることで、下の確率分布からサンプルされるような状態系列を達成すればよい 20

21.

オンラインでの学習 • 障害物などがある場合、障害物によって進めなかったというデータを元にオンラインで学習することで、障害物を回避するような新たな状態系列がサンプリングされるようになる 21

22.

アルゴリズム 22

23.

実験 • 色々やっているので、以下を抜粋 – Energy Based ModelとActionFF（状態と行動を受け取って次状態を出力する順モデル）の比較 – 学習データセットにない障害物に対する対処 23

24.

Energy Based ModelとActionFFの比較 • Sawyer Arm（7DoFのロボットアーム）で目的の位置に到達させる • モデルを学習させるか、オンライン学習させるかによらず、EBMの方が良い結果 • 特に、オンライン学習させる時に大幅に改善 24

25.

学習データセットにない障害物に対する対処 • Particle：粒子を目的の位置まで運ぶ • オンライン学習を組み込んだEBMでは、学習時になかった障害物があったとしても、タスクを成功させた 25

26.

Model-Based Planning with Energy-Based Modelsまとめ • Energy Based Modelによるプランニングは有望である • オンライン学習の設定を入れることでパフォーマンスを向上させることができた 26

27.

感想 • Regularizing Model-Based Planning with Energy-Based Models – モデルの不確かさについて、分散等が直接計算できる手法がよく提案されているが、EBMでうまく表現していて、興味深い – EBMがOODデータに対して高い尤度を持たないという特性によってこれが実現されているのだと思う • Model-Based Planning with Energy-Based Models – モデルベース強化学習を考える上で、陽にモデルを構築しないというのは面白い発想だった（ただ、あんまりこの方向で考えすぎると、モデルフリー強化学習に帰着するのでは？） – 著者が謎にオンライン学習押しだったが、どれくらい使えるシチュエーションがあるだろうか気になる – あとこの手法はリーチング系以外厳しそう 27