120 Views
April 07, 17
スライド概要
2017/4/7
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
Reinforcement Learning with Deep Energy-Based Policies Tuomas Haarnoja, Haoran Tang, Pieter Abbeel, Sergey Levine 2017/4/6 発表者:金子貴輝 ※図表または式は明記しない場合,上記論文から引用
何の論文? • 強化学習の論文 – ICLR 2017 accepted – UC BerkeleyのSergey Levineらの研究室 • DeepLearning関係 – SVGDというカーネル関数を使った収束の速いサンプリング法 – 限定的だがGANとは違う密度推定が普通にあるっぽい(不確か) • 強化学習関係 – 最大エントロピー強化学習という楽観的初期値に代わる探索基準 – Soft Q-Learning 2
概要 • • • • • 深層強化学習というとDDPGのように方策も価値もdeepにできている だが報酬最大化が基本で,探索を目的にすることが出来なかった これを定式化すると最大エントロピー強化学習になる Soft Q-Learningによる定式化でdeepな最大エントロピー学習を実現した この時,方策分布がenergy-based policyになるので連続でマルチモーダル (多峰)にもなる ←探索の度合いを強くできる マルチモーダルな方策が 複数のゴールを見つける→ 3
探索を目的にする(最大エントロピーRL) • • • • 方策をなるだけ散らす事自体を目的にする 目指すべき軌道が与えられる最適制御や逆強化学習では 自然に出てくるらしい 普通の強化学習でも,転移や学習の途中で使う意味がある, バランスはα ボルツマン探索(RBMの温度Tで制御する探索)と比べて非グリーディ 通常の強化学習の最適方策 最大エントロピー強化学習の最適方策 4
補足 • 解きやすい問題? – テーブル表現などの単純な分布では 導出されている – Energy-based Policyでは今回が初 • Energy-based Policyって何? – 正規化されていなくて扱いにくいが 表現力の高い方策の一般形 – 連続にできるし条件付きガウシアンのように 単峰とは限らない 5
Soft Q Learning • soft Q関数は最大エントロピー強化学習のsoft Bellman方程式を 満たすようにする ※ここではα=1としている • 方策改善法と同様に,現在のQに従う方策はQを改善する • この更新が収束すると最適方策を得られる 6
Soft Q Learning • 価値反復の問題点 – 方策改善は巨大な状態行動空間では 正確に実行できない(全てのs,a) – Qの指数に比例した分布でサンプリングを必要とする 7
提案分布で近似する • 更新後との2乗誤差の形にして,提案分布で期待値を取る • 状態価値関数も提案分布で重点サンプリングする • どちらの提案分布にも方策分布を用いて良い • これでQについては微分できる形になったのでSGD 8
重点サンプリングの注意 提案分布に用いる方策分布は尤度を求める必要がある ノイズで微分可能かつ行動次元とノイズの次元が等しければ, 次の行列式が0に成らない仮定のもと,計算できる 学習初めはこの仮定が成り立たないので,提案分布には 代わりに一様分布を使う 9
方策分布からのサンプリング • MCMCが一般的だが,オンライン実行が難しいので使わない • 代わりに償却SVGDを使ってサンプリングする 10
アルゴリズム • 各エポックの各ステップごとに – 方策から行動をサンプリングしてリプレイメモリに格納 • 方策はGANと同様にノイズと状態を入力して行動を出力 – リプレイメモリからランダムに(s,a,s’,r)を引き出して – SoftQの勾配を計算 • 価値反復から計算できる – 方策の勾配を計算 • ボルツマン分布に似た方策分布の勾配を近似 • サンプリングにはMCMCではなくSVGDを使う • エポックごとに目標に用いるパラメータを更新 11
実験 • ビデオ参照 • 実験1,複数のゴールを目指せるか • 実験2.1,泳ぎスネークが前後を目指す,図6 に割合の図 • 実験2.2,コの字迷路の到達率 • 実験3,広場で全方向移動を事前学習して迷 路に挑む 12
Soft Q Learning • soft Q関数を基準に状態価値関数と方策と価値反復を定義 – 状態価値関数は正規化定数から求められる – soft Q関数は最大エントロピー強化学習のsoft Bellman方程式を 満たすようにする ※ここではα=1としている エントロピーの項の補正のおかげで,Qの方策による期待値が状態価値にまとまる 13
14