[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning

>100 Views

July 07, 17

スライド概要

2017/6/30
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning 情報理工学系研究科コンピュータ科学専攻 横倉広夢 2017/06/30

2.

書誌情報 • Hybrid Reward Architecture for Reinforcement Learning 著者: Maluuba(MSに買収された)の研究チーム • 13 Jun 2017 • http://www.maluuba.com/blog/2017/6/14/hra • 2

3.

概要 • Goal: 利得を最大化する方策を学習したい • スケールさせたい DNNによって低次元化した最適価値関数の近似 (e.g. DQN) • 価値関数が複雑で低次元で表現できない場合は??(Ms. Pac-Man) performance objective, training objective • 元の報酬関数を、より滑らかな最適価値関数を持つような報酬関数 で置換することで効率的で安定した学習を実現する 3

4.

HRA • 報酬を分割して、それぞれに対して価値関数を学習させる parallel aggregator • 各構成要素は特徴量全体の部分集合に依存しているはずなので、価 値関数はより滑らかで低次元での近似が容易→学習効率、安定性 4

5.

最適行動価値 • 必ずしも、環境から得られる報酬に関して最適とは限らない • 悪い挙動だったらQ値の集約部分を変えれば解決するかも 5

6.

Loss • DQN • HRA (Sarsaでもよい) 6

7.

ドメイン知識の利用 • • • 無関係な特徴量を除去する • 得られる報酬に影響を与えない特徴は単なるノイズなので除去 ターミナルステートを明確化する • この価値を近似する必要がなくなるので、ネットワークの重みが効率 的に利用できる 擬似報酬(pseudo-reward)を利用する • 擬似報酬(Sutton et al., 2011): 特徴量に基づいた任意の有用な信号 • ポリシーの他に擬似報酬まで入力として考えた、価値関数をgeneral value function (GVF)と呼ぶ 7

8.

実験1 • Fruit Collection task • エージェントはできるだけ速く10x10のグリッド上にある果物を回 収する • 果物が配置され得る場所は10箇所 • エピソード毎に、10箇所中5箇所に果物が配置される • エージェントの開始位置はランダム • 300ステップまたは5個全て回収したらエピソードは終了 8

9.

実験1 • • DQN • 各果物に対して報酬+1を与える HRA • 10個の報酬に分割 • 各報酬はそれぞれ10箇所中の1箇所に対応する 9

10.

実験1 • • • 無関係な特徴量を除去する • エージェントの位置+対応する果物の特徴量(あるかどうか)のみ ターミナルステートを明確化する • 状態の表現をかなり簡略化できた 擬似報酬を利用する • エージェントが10箇所の各場所に行くように 価値関数を学習させる(各場所の果物に関した 価値を学習するのではなく)(?) 10

11.

実験1 • DQNに比べて、ドメイン知識の効果が顕著 11

12.

実験2 • Ms. Pac-Man ( from Atari 2600 ) • ペレットを食べることでポイント • ゴーストに会うと死ぬ • 特殊なペレットを食べるとゴーストが一時的に青くなる • 青くなったゴーストは食べることができる • レベル毎に2回ボーナスフルーツを食べることができる • 7種類あり、ポイントが異なる • 全てのペレットを食べると次のレベル • マップは4種類 12

13.

実験2 • Arch. • 各ペレット、各ゴースト、各青いゴースト、各フルーツ に対して1 head • 実験1と同様に、特定の場所に向かうようにQ値を学習する (ように擬似報酬を設定する?) • マップ毎に異なるGVF • Start: 0 GVFs, 0 heads • マップ上で新しく到達できる場所を見つけたらGVFを追加 • 新しい場所でペレットを見つけたら、headを追加 13

14.

実験2 • Exploration • 探索用のheadを2タイプ • diversification • ランダムなQ値を区間[0, 20]の一様分布から発生させる • 最初の50ステップ程度必要だった • count-based • あまり探索されていなかったstate-actionペアにボーナスを発 生させる 14

15.

実験2 • • fixed start : 最初しばらく何もしない時間を設ける random start : 人間の軌跡に基づいた初期位置から始める 15

16.

実験2 16

17.

実験2 17

18.

まとめ 報酬を、状態の一部に依存するように分割することで、 複雑な価値関数を低次元で近似 • 学習の効率性、安定性 • 問題サイズの削減 • • ドメインの知識が有効に活用できる 18