[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies

153 Views

April 07, 17

#deep learning #Deep Learning #Reinforcement Learning #Maximum Entropy Reinforcement Learning #Soft Q-Learning #Energy-Based Policies

スライド概要

2017/4/7
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 49.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 46.9K

各ページのテキスト

Reinforcement Learning with Deep Energy-Based Policies Tuomas Haarnoja, Haoran Tang, Pieter Abbeel, Sergey Levine 2017/4/6 発表者：金子貴輝 ※図表または式は明記しない場合，上記論文から引用

何の論文？ • 強化学習の論文 – ICLR 2017 accepted – UC BerkeleyのSergey Levineらの研究室 • DeepLearning関係 – SVGDというカーネル関数を使った収束の速いサンプリング法 – 限定的だがGANとは違う密度推定が普通にあるっぽい（不確か） • 強化学習関係 – 最大エントロピー強化学習という楽観的初期値に代わる探索基準 – Soft Q-Learning 2

概要 • • • • • 深層強化学習というとDDPGのように方策も価値もdeepにできているだが報酬最大化が基本で，探索を目的にすることが出来なかったこれを定式化すると最大エントロピー強化学習になる Soft Q-Learningによる定式化でdeepな最大エントロピー学習を実現したこの時，方策分布がenergy-based policyになるので連続でマルチモーダル（多峰）にもなる ←探索の度合いを強くできるマルチモーダルな方策が複数のゴールを見つける→ 3

探索を目的にする（最大エントロピーRL） • • • • 方策をなるだけ散らす事自体を目的にする目指すべき軌道が与えられる最適制御や逆強化学習では自然に出てくるらしい普通の強化学習でも，転移や学習の途中で使う意味がある，バランスはα ボルツマン探索（RBMの温度Tで制御する探索）と比べて非グリーディ通常の強化学習の最適方策最大エントロピー強化学習の最適方策 4

補足 • 解きやすい問題？ – テーブル表現などの単純な分布では導出されている – Energy-based Policyでは今回が初 • Energy-based Policyって何？ – 正規化されていなくて扱いにくいが表現力の高い方策の一般形 – 連続にできるし条件付きガウシアンのように単峰とは限らない 5

Soft Q Learning • soft Q関数は最大エントロピー強化学習のsoft Bellman方程式を満たすようにする ※ここではα=1としている • 方策改善法と同様に，現在のQに従う方策はQを改善する • この更新が収束すると最適方策を得られる 6

Soft Q Learning • 価値反復の問題点 – 方策改善は巨大な状態行動空間では正確に実行できない(全てのs,a) – Qの指数に比例した分布でサンプリングを必要とする 7

提案分布で近似する • 更新後との２乗誤差の形にして，提案分布で期待値を取る • 状態価値関数も提案分布で重点サンプリングする • どちらの提案分布にも方策分布を用いて良い • これでQについては微分できる形になったのでSGD 8

重点サンプリングの注意提案分布に用いる方策分布は尤度を求める必要があるノイズで微分可能かつ行動次元とノイズの次元が等しければ，次の行列式が0に成らない仮定のもと，計算できる学習初めはこの仮定が成り立たないので，提案分布には代わりに一様分布を使う 9

10.

方策分布からのサンプリング • MCMCが一般的だが，オンライン実行が難しいので使わない • 代わりに償却SVGDを使ってサンプリングする 10

11.

アルゴリズム • 各エポックの各ステップごとに – 方策から行動をサンプリングしてリプレイメモリに格納 • 方策はGANと同様にノイズと状態を入力して行動を出力 – リプレイメモリからランダムに(s,a,s’,r)を引き出して – SoftQの勾配を計算 • 価値反復から計算できる – 方策の勾配を計算 • ボルツマン分布に似た方策分布の勾配を近似 • サンプリングにはMCMCではなくSVGDを使う • エポックごとに目標に用いるパラメータを更新 11

12.

実験 • ビデオ参照 • 実験１，複数のゴールを目指せるか • 実験２.1，泳ぎスネークが前後を目指す，図６に割合の図 • 実験2.2，コの字迷路の到達率 • 実験3，広場で全方向移動を事前学習して迷路に挑む 12

13.

Soft Q Learning • soft Q関数を基準に状態価値関数と方策と価値反復を定義 – 状態価値関数は正規化定数から求められる – soft Q関数は最大エントロピー強化学習のsoft Bellman方程式を満たすようにする ※ここではα=1としているエントロピーの項の補正のおかげで，Qの方策による期待値が状態価値にまとまる 13

14.