[DL輪読会]Conservative Q-Learning for Offline Reinforcement Learning

1.3K Views

July 03, 20

スライド概要

2020/07/03
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Conservative Q-Learning for Offline Reinforcement Learning Hiroki Furuta http://deeplearning.jp/

2.

書誌情報 • タイトル: Conservative Q-Learning for Offline Reinforcement Learning • 著者: Aviral Kumar1, Aurick Zhou1, George Tucker2, Sergey Levine12 • 所属: 1UC Berkeley, 2Google Research, Brain Team • URL: https://arxiv.org/abs/2006.04779 • 概要: オフライン強化学習で、データセットと学習方策の distributional shiftによって起こる価値の過大評価を解決する Conservative Q-Learning (CQL)を提案した 2

3.

研究背景 • 最近Offline RL(Batch RL, Fully Off-Policy RL)が流行っている ➢ ある挙動方策(複数の場合もある)によって集められたデータセットのみから学習方 策を最適化、環境との相互作用はなし、実応用向き • BCQ[Fujimoto+ 2018], BEAR[Kumar+ 2019], BRAC[Wu+ 2019], AWR[Peng+ 2019], ABM[Siegel+ REM[Agarwal+ 2020] , MOReL[Kidambi+ 2020] , QR-DQN[Dabney+ 2018], , MOPO[Yu+ 2020], BREMEN[Matsushima+ 2020] 2020] • Offline RLではデータセットと学習方策のdistributional shiftが大きな問題 となる ➢ 通常のOff-Policyの手法ではデータが増えて緩和される • 既存手法は学習方策が推定した挙動方策(データセットを集めた方策)か ら大きく離れないような制約をかけるが、不十分である 3

4.

準備:問題設定 • 通常のMDP: • データセットD を集めた挙動方策: • 挙動方策の元でのdiscounted state-marginal distribution: • Q-Learningはベルマン最適作用素を繰り返し適用することでQ関数を 学習する手法(actionが高次元の場合はCEMなどでmaxを計算) • Actor-Criticでは、 4

5.

Distributional Shift • 挙動方策の下で集めたデータセットでQ関数と方策を交互に最適化 • Policy evaluationにおいて、学習方策に関する期待値をとってTarget Valueの値を計算 • 学習方策からはデータセットの分布外(OOD)のactionがサンプルさ れる可能性があり、OODのactionの価値が過大評価される Distributional Shiftの問題に繋がりうる 5

6.

Conservative Off-Policy Evaluation • 特定の方策𝜇に関するQ-valueの期待値を最小化する項を追加 Policy evaluation ➢ 十分大きな𝛼の下で、 • データセットの方策に関するQ-valueの期待値を最大化する項を追加 Q-valueの期待値について よりtightなバウンドとなる ➢ 十分大きな𝛼の下で、 Policy evaluation 6

7.

Conservative Q-Learning for Offline RL • 価値関数に関する最適化問題に加えて、方策に関する最適化も考慮 • 上式によるQ-Learning (or Actor-Critic)をCQL(ℛ)と呼ぶ ➢ ℛは方策に関する正則化項で、事前分布ρとのKLやエントロピーℋを用いる 7

8.

Variants of CQL • CQL(ℋ)の目的関数: 方策𝜇に関して、 • 𝑓 = 𝑄として前項の期待値の計算に代入するとCQL(ℋ)の目的関数が 得られる 8

9.

Gap Expanding • 十分に大きい𝛼の下で、 • CQLではデータセットの分布内の方策によるQ-valueの期待値と分布 外の方策によるQ-valueの期待値の差が、真の価値関数による値の差 よりも大きくなる • 分布外のQ-valueが低めに評価されるので、相対的に正確な分布内の Q-valueに基づいて方策を学習できる 9

10.

CQL vs BEAR(既存手法) • OODのQ関数の値とデータセット内のQ関数の値の差 分布外の方策によるQ-valueの期待値が分布内の方策によるQ-valueの期待値より小さくなっている 10

11.

アルゴリズム • SACなど既存のQ-LearningやActor-Criticのコードに20行弱加えるだ けの簡潔な修正で実現できる 11

12.

評価実験: 環境など • D4RL[Fu+ 2020] のベンチマーク環境で評価 ➢ MuJoCo Gym: HalfCheetah, Hopper, Walker2d ➢ AntMaze: MuJoCoのAntで迷路を解くタスク ➢ Adoit: 24-DoFのハンドを制御、ペン回し、釘打ち、ドア開け、ボールのpick & place ➢ Kitchen: 9-DoFのマニピュレーターで複数物体のマニピュレーション 12

13.

結果: MuJoCo Gym • Expertのパフォーマンスを100に正規化したスコア • 様々なデータセットで既存手法を上回る成績 13

14.

結果: D4RL • Expertのパフォーマンスを100に正規化したスコア • AdoitではKLによる正則化の方が良い(CQL(ρ)) 14

15.

結果:Discrete Action • 離散actionのAtariのゲーム環境にCQLを適用 • online DQN agentが集めた最初の1%(top)/10%(bottom)のデータ 15

16.

Analysis of CQL • (学習したQ関数の期待値) - (真の価値の期待値) • CQL(ℋ), CQL(データセットの方策による価値の最大化なし), Q関数 のアンサンブル, BEAR(Offlineの既存手法)で比較 • 学習されるQ関数はtightな下界になっている 参考: CQL(データセットの方策による価値の最大化なし) 16

17.

まとめ • オフライン強化学習で、データセットと学習方策のdistributional shiftによって起こる価値の過大評価を解決するConservative QLearning (CQL)を提案 • 真の価値関数の値のtightな下界を与えるQ関数を学習できる • データセットの分布内のactionのQ関数の期待値と分布外のactionのQ 関数の期待値の差が、真の価値関数による値の差よりも大きくなる性 質によってdistributional shiftの問題を解決 17