[DL輪読会]Randomized Prior Functions for Deep Reinforcement Learning

>100 Views

June 14, 19

スライド概要

2019/06/14
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Randomized Prior Functions for Deep Reinforcement Learning Yuma Kajihara http://deeplearning.jp/ 1

2.

書誌情報 • タイトル: Randomized Prior Functions for Deep Reinforcement Learning • 著者:I. Osband, J. Aslanides and A. Cassier (Deepmind) • 会議,雑誌:NeurIPS 2018. Spotlight • 概要:深層強化学習(DQN)において,”prior”と呼べるような事前知識を,関数のパラ メータの分布として組み込めるフレームワークを考えた. (Bootsrap DQN の改良) • URL: http://papers.nips.cc/paper/8080-randomized-prior-functions-for-deep-reinforcement-learning.pdf • Colab: https://colab.research.google.com/drive/1hOZeHjSdoel_UoeLfg1aRC4uV_6gX1g • Project page: https://sites.google.com/view/randomized-prior-nips-2018/ 2

3.

背景 • 深層強化学習: – 圧倒的なサンプル数と圧倒的な計算量が必要. – Inductive biasが弱い(事前知識のようなものを組み込むことが難しい) • 探索効率をどう高めるかが,(深層)強化学習における共通の問題意識. → 強いinductive bias(事前知識)を適切/安全に設定する. (不確実性を適切に扱う.) • 深層学習 × ベイズ推論 の発展 – Bayes by backprop – Reparametarization trick (VAEなど) – Dropout as a Bayesian approximation … など 3

4.

既存の”uncertain estimation in DRL”手法の欠点 (?) • Distributional RL a.k.a Categorical DQN (Bellemare et al. ICML. 2017) : 期待報酬を分布で表現する. こちらが詳しい→ https://www.slideshare.net/juneokumura/dqnrainbow • Flips of a coinの観測結果 4

5.

既存の”uncertain estimation in DRL”手法の欠点 • 複数のQ-functionを用いる:Bootstrapped DQN(Osband et al. 2016) :本論文の著者のPrior work • Concept: Bootsrapped Q-functions as a posterior of Q-function distribution • 概要 : – 毎エピソードで違うQ-functionを選択して,そのQ-functionのみでpolicy(argmaxQ)を作る. – 各Q-functionに専用のReplay bufferを用意する. • 極端にスパースな報酬構造を持った環境では 探索がうまくいかない(らしい). → “There is no uncertainty from outside of data” と言っている. (Replay buffer上のデータが同じなら,同じQ-functionが生成する) 5

6.

提案手法 • Bootstrapped DQNの,各Q関数に不変なノイズ関数を加える. 𝑄𝜃𝑘 𝑥 = 𝑓𝜃𝑘 𝑥 𝑡𝑟𝑎𝑖𝑛𝑎𝑏𝑙𝑒 + 𝛽𝑝𝑘 𝑥 𝑓𝑖𝑥𝑒𝑑 (𝑝𝑟𝑖𝑜𝑟) • 𝑝はどんな関数でもいい.(パラメータはrandomizedされている.) • 確かに, 𝑄𝜃𝑘 𝑥 はモデル固有のuncertaintyを持っているが... この𝑝の有無でどういう差が出るのか直感的にはわかりにくい. 6

7.

Chain environmentsでの実験 • https://www.youtube.com/watch?v=J6I0GXyFaUk より引用 7

8.

Chain environmentsでの実験 • 確かにpriorがあるとないで全くパフォーマンスが違う. • BS: Bootstrapped DQN without prior function • BSR: Bootstrapped DQN with l2 norm • BSP: 提案手法 8

9.

(改造した)Cart-Poleでの実験 • 頂上の一点のみ報酬が1もらえる.(それ以外の状態では報酬は0) (+カートが左右に少しでも動くと-0.1) • 提案手法(BSP)以外は,はじめの数十ステップ時点から学習が進んでいない.(探索が 止まってしまっている.) 9

10.

https://www.youtube.com/watch?v=J6I0GXyFaUk 1

11.

Montezuma Revengeでも有効だった. • 𝑄𝜃𝑘 𝑥 = 𝑓𝜃𝑘 𝑥 𝑡𝑟𝑎𝑖𝑛𝑎𝑏𝑙𝑒 + 𝛽𝑝𝑘 𝑥 𝑓𝑖𝑥𝑒𝑑 (𝑝𝑟𝑖𝑜𝑟) のβをどう選ぶかで,かなりパフォーマンスが異なる.(通常のボルツマン選択におけ る逆温度と同じような働きに見える) 1

12.

Open questions • 今回はprior functionは完全にランダムな関数を用いていたが,タスクに応じた,適切な Priorを求めることは可能なのか?(適切なinductive biasを求めることと同じ) • Meta RLなどとの関係性は? • このEnsenbled modelを,単一のモデルにまとめることは可能なのか? 1