[DL輪読会]Better Exploration with Optimistic Actor-Critic

>100 Views

March 27, 20

スライド概要

2020/03/27
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP Better Exploration with Optimistic Actor-Critic [DL Papers] Monami Nishio http://deeplearning.jp/

2.

目次 • 書誌情報 • 背景 • 提案手法 • 実験 • まとめ

3.

書誌情報 • タイトル:Better Exploration with Optimistic Actor-Critic • 著者: Kamil Ciosek, Quan Vuong*, Robert Loftin, Katja Hofmann (Microsoft Research Cambridge UK) • 会議:NeurIPS 2019 • 概要:モデルフリー強化学習Actor-Criticモデルのサンプル効率の低さを、 optimisticな探索の導入により改善したモデル(Optimistic Actor-Critic) を提案。MuJoCoのContinousタスクで、SAC,TD3を上回る精度を発揮し た。

4.

目次 • 書誌情報 • 背景 • 提案手法 • 実験

5.

背景 提案手法 実験 Model-Free強化学習手法は「何を学習するか」という軸で二つに分類できる 価値反復法 Q-learning, SARSAなど 方策を行動価値関数(Q)で表現し、 エージェントは行動価値関数を学習する ことで最適な方策を求める。 方策勾配法 Actor-Criticなど 方策をあるパラメータθによってパラメタライ ズされた確率モデルと考え、これをθについて 最適化する。 サンプル効率性:低 学習安定性:高 サンプル効率性:高 学習安定性:低 Q* 行動価値関数 の更新 Q Q π* J* π J π J 行動価値関数で表現される 方策で行動しデータ収集 (OFF-policy) π* 方策パラメータ の更新 π π 方策の 方策に基づき行動し、 評価 データ収集(ON-policy) 参考:『これからの強化学習』(森北出版)

6.

背景 提案手法 実験 DDPGモデルは2手法を組み合わせたサンプル効率の高いモデル DDPG(Deep Deterministic Policy Gradient)モデル • 方策を表現するActor(π) • 方策を評価するCritic(Q) 二つを別々のNNモデルとして保持し、 それぞれのパラメータを更新していく。 OFF-policy方式でCritic(Q)を更新し、 Qの値を用いてActor(π)を更新する。 図引用元:https://dev.dynamic-pricing.tech/post/iclr-2019/

7.

背景 提案手法 実験 DDPG改善モデルが現状のSOTAモデル DDPG(Deep Deterministic Policy Gradient) TD3(Twin Delayed DDPG) 行動価値関数(Q)を2つ用意し、小さい方を目的 関数の計算に用いることで、過大評価されたQ値により 方策が間違った方向に更新されてしまうことを防ぐ DDPG TD3 SAC(Soft Actor-Critic) 方策の目的関数にエントロピー最大化項を加えることで、 探索を促進し、方策が局所最適解に陥ることを防ぐ DDPG SAC

8.

背景 提案手法 実験 既存のSOTAモデルは、サンプル効率性(探索の効率性)の面で改善の余地あり 1. Pessimistic under-exploration TD3ではQ値の下限(2つの行動価値関数のうち小さい 方)を最大化するような方策(π)を求める。 QLBの最大値付近で方策が収束してしまい、それ以上 探索しなくなるため、真の最適解にたどり着けない 2. Directional uninformedness 方策は累積的にアップデートされていくため、原則 として一方向に改善が進むはず。しかし、ガウシアン 分布に従う方策では、左右均一に探索を行うため、 無駄が生じる。

9.

目次 • 書誌情報 • 背景 • 提案手法 • 実験

10.

背景 提案手法 実験 ベースとなるのは“Optimism in the face of Uncertainty”の原理 “Optimism in the face of Uncertainty” 期待値に不確実性があるときには、その不確実性の範囲の中で大きい期待値を仮定する (楽観的に見積もる)方が、効率的に学習できる 実際の動物実験でもこの原理に従った現象が確認できる ToneA ToneB 0% ←>200ms→ ← 800ms → ←>200ms→ 100% 最適方策:ToneAでは引かず、ToneBでのみ引く 間違い① ToneA 100%, ToneB 100% →レバーを引く →ToneAでレバーを引いても報酬が来ないことに気づく →ToneBでのみ引くようになる 間違い② ToneA 0%, ToneB 0% →レバーを引かない →ToneBでレバーを引くと報酬が来ることに気づかない →いずれの音でもレバーは引かない

11.

背景 提案手法 実験 実方策(πT)よりも楽観的な方策(πE)を用いて行動選択を行う Optimistic Actor-Critic πT πE Exploration Policy Action選択には、Q値の取り得る上限を 最大化する方策(Exploration Policy) を用いる。KL-divergenceの導入により ExplorationPolicyがPolicyから離れすぎ ないよう制限をかける。 方策の更新には通常通りQLBを用いる

12.

背景 楽観的な方策により、探索を効率化 1. Pessimistic under-exploration QUB(2つのQ値の最大値)は局所最大値をもたないた め、方策の分散が小さくなりすぎることがない 2. Directional uninformedness Action選択に用いる方策(Exploration Policy)と方策 (Policy)の平均は一致しないため、既に探索済みの action spaceを無駄に探索することがない 提案手法 実験

13.

目次 • 書誌情報 • 背景 • 提案手法 • 実験

14.

背景 提案手法 実験 特に難易度の高いタスク(Humanoid-v2)で既存SOTAモデルを上回る精度を発揮 MuJoCoのContinuousControlタスク5つでOAC, SAC, TD3, DDPGを比較

15.

背景 提案手法 実験 効いているのはDirectional Uninformednessの解消 1. Pessimistic Under-explorationの解消 2. Directional Uninformednessの解消 OAC/OAC no bootstrapped uncertainty estimateの精度をContinuousTaskで比較したところ、差が無 かった。Pessimistic Under-explorationは、既存手法のトリック(TD3のノイズ、SACのエントロピー 項)で解決済みなのでは?→実際に再現実装で検証 OAC : OAC no bootstrapped uncertainty estimate : 上の式のQUBをQLB(2つのQ値の最小値)に置換 DirectionallyInformedではあるが、Optimisticではない

16.

背景 提案手法 実験 SACのEntropy項+uncertainty estimateは逆効果?? RL-Adventure-2のSoft Actor-Criticコードをもとに、Optimistic Actor-Criticを再現実装 (再現コードが間違っている可能性が高いのであくまで参考程度…) • SACはEntropy項の導入により精度が改善したのに対し、OACではEntropy項を抜いた方が学習が上手 く進んだ • OACは全体的にノイズが大きい印象 • SAC Entropy項、OACのUncertainty Estimateはいずれも探索を促進する役割を果たしており、二つ を併用するとむしろ逆効果の可能性?(ハイパラ調整でoptimisitic度合いを調整すれば良いのかも) OAC 黒:Target Policy 赤:Exploration Policy OAC wo entropy

17.

まとめ • Model-free RLでは、方策勾配法はサンプル効率(学習速度)の低さが、 価値反復法は学習の安定性の低さが課題 • DDPGやその発展版であるSAC,TD3は価値反復法をベースとして学習を 安定化するトリックを導入することにより、サンプル効率が良い+学習 が安定したモデルを実現した • ただし、既存のSOTAであるSAC, TD3は以下2点において、サンプル効率 改善の余地がある • Pessimistic under-exploration • Directionally uninformed • OACは、action選択の際に実方策よりもoptimisticな方策(πE)を用い ることにより、特に複雑で学習困難な課題(Humanoid-v2)において既 存モデルを上回るサンプル効率を達成した。