[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learning model-based planning from scratch

>100 Views

July 28, 17

スライド概要

2017/7/28
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Learning model-based planning from scratch & Imagination-Augmented Agents for Deep Reinforcement Learning Hiroaki Shioya, Matsuo Lab http://deeplearning.jp/

2.

論文情報 ● 2本ともDeepMindが発表した深層強化学習+プランニングに関する論文 ● 11 July 2017発表で、現状arxivのみ ● モチベーション ○ ○ model-base大事 プランニング大事 2

3.

強化学習 ● エージェントの良いふるまいを学習したい ● 問題設定 environment P, R, γ a s, r agent Π, V notation: s : 状態 a : 行動 r : 報酬 P:遷移関数 (s×a→s) R : 報酬関数 (s×a→r) Π:方策(s→a) V : 価値関数(s → v) γ : 割引率 環境との相互作用を通じて ΠやVを学習し、累積期待報酬和の最大化を目指す 3

4.

強化学習とDeep Learning ● 方策や価値関数を表す強力な関数近似器 ○ ○ 画像など高次元の生データを状態入力として処理可 複雑なタスクを解けるような方策、価値関数も近似可 state state NN policy NN value function action ● state value 複雑なタスクをNNで扱う際に生じる学習の不安定性や試行回数の多さを補うよう に強化学習アルゴリズムが発展 ○ ○ DQN, TRPO (安定性) GPS(サンプル効率 ) 4

5.

プランニングって何 ● 外部環境のモデル(PとR)をもっておいて、先読みした結果を元にどう行動するか決 める 良さそう a 実環境 real world P:遷移関数 (s×a→s) R : 報酬関数 (s×a→r) のモデル (internal model) : 状態(s) : 行動(a) 5

6.

最近の研究成果の多くは、プランニングを用いていない ● DQN, DDPG, TRPOなど、近年よく使われる深層強化学習アルゴリズムは、多くが 環境の内部モデルをもたない (モデルフリー) 良さそう a 実環境 real world P:遷移関数 (s×a→s) R : 報酬関数 (s×a→r) のモデル (internal model) : 状態(s) : 行動(a) 6

7.

ではどうしてるの?→ 経験から価値を推定する ● ある状態sで行動aをとるとどれくらい良さそうか(報酬を多く獲得できそうか)を経験 をもとに推定していく ● 結果、状態sの観測に対し、試行錯誤の期間に試してみて良かった行動をとるよう になる 7

8.

モデルフリーができるのに、なんでプランニングしたいの ● モデルフリーだと異なる設定に一般化できない ○ ● モデルベースの方が、サンプル効率が良くなる ○ ● 目標が変化しても、学習期間に良かった行動を取り続ける 特にDRLは試行回数が重い 人間もやってるっぽい ○ ○ 神経科学の知見にも合う [Hassabis 2017] 経験的にも、プランニングしてるよね [Hassabis 2017] Hassabis, Demis, et al. "Neuroscience-Inspired Artificial Intelligence." Neuron95.2 (2017): 245-258. 8

9.

なんでプランニングしないの→モデルが不正確 ● 多くのタスクでは、環境のモデルは未知 ○ ● 未知な場合は、経験を元に学習する ○ ● 囲碁などのゲームはあてはまらない しかし、学習しても誤差はある程度残る 不正確なモデルを使うと、却ってダメな結果を導く ○ しかも、強化学習のように前の予測結果にさらにモデルを使用する問題設定だと、ステップが進む につれて誤差が蓄積、拡大する 内部モデルの予測軌道 実際の軌道 9

10.

(Classical) Planning ● ● 多くは完全なモデルを与えられているか、単純なモデルで近似 例 ○ ○ ○ ○ trajectory optimization model predictive control(MPC) Dyna [Sutton 1991] Monte Carlo Tree Search(MCTS) [Sutton 1991]Dyna, an integrated architecture for learning, planning, and reacting. ACM SIGART Bulletin, 2(4):160–163, 1991 10

11.

(Classical) Planning + DL ● モデルをNNで近似すれば複雑なダイナミクスでも扱えないだろうか? ○ ● 例 ○ ○ ● 従来はlinear conbination feature, gaussian processなどで近似 trajectory optimization + DL ■ Embed to Control [Watter 2015] ■ Prediction and Control with Temporal Segment Models [Mishara 2017] model predictive control(MPC) + DL ■ Deep MPC [Lenz 2015] ■ Deep Video Prediction [Finn 2017] 十分な成功を収めているとは言い難い [Watter 2015] Embed to control: A locally linear latent dynamics model for control from raw images. In Advances in Neural Information Processing Systems, pages 2746–2754, 2015. [Mishara 2017]Mishra, Nikhil, Pieter Abbeel, and Igor Mordatch. "Prediction and Control with Temporal Segment Models." arXiv preprint arXiv:1703.04070 (2017). [Lenz 2015] DeepMPC: Learning deep latent features for model predictive control. In Robotics: Science and Systems, 2015. [Finn 2017]Deep visual foresight for planning robot motion. In IEEE International Conference on Robotics and Automation (ICRA), 2017 11

12.

ここまでのまとめ ● ● ● 近年のDRLの発展は目覚ましいが、その多くがモデルフリー モデルフリーは異なる設定での汎化性能に欠点があり、克服のためにはモデル ベースのプランニングが鍵になりそう しかし、(NNのような強力な関数近似器を用いても)十分な正確性をもったモデルを 学習するのは難しく、プランニング活用の壁になっている 12

13.

Imagination-Augmented Agents for Deep Reinforcement Learning 13

14.

不正確なプランニングをNNに解釈してほしい ● ● ● モデルを正確に推定するのは難しいので、代わりに不正確なプランニングから使え る情報だけ抽出して、残りは無視してほしい どう抽出すればいいのかよくわからない→NNに投げて抽出してもらおう プランニングだけからは行動を決定できないので、モデルフリーRLも学習して、プラ ンニングからの情報はそのcontext infromationとして活用しよう 14

15.

Model a. imagination core ○ ○ b. Single imagination rollout ○ ○ c. 内部モデルに相当する environment modelの構造は下図 1.がplanningに、2.がそれを解釈する部分に 相当する 2. encoder は逆向きLSTM(あまり向きは大 事じゃなかった ) Full I2A Architecture ○ ○ ○ planningとmodel-freeを統合する aggregaterは単純なconcat 最後に2つを入力にとる NN 15

16.

学習 a. imagination core ○ ○ b. Single imagination rollout ○ c. pre-trainする(その方が早いらしい) π_^はπを蒸留して得る 普通のRL Full I2A Architecture ○ 普通のRL 16

17.

imagination rollout strategy ● 選択可能な各行動から1回ずつrolloutする ○ ○ つまり行動が離散の場合の戦略しか示されていない この論文では ALEでしか実験してないので問題はない 17

18.

実験1:Sokoban ● ● ブロックを特定の位置まで運ぶパズルゲーム プランニングが求められる特性をもつ ○ ○ ブロックは押すことしかできないので一部不可逆な移動が生じる 毎回パズルの配置が異なる 18

19.

model-bath pathは有効、不完全なモデルも扱える ● ● ● ● I2A(提案手法)がstandard(I2Aのmodel-free pathのみ)を上回る copy-IAAはEMを元のoを返すものに置換し たもの(parameter増の影響をみるため ) no reward IAAはobservationのみ予測 unroll depthは5がoptimalだった(ゲーム自 体は平均50stepくらい) ● ● ● I2Aはpoor model(parameter落として精度下 げた)でもタスク成功率が落ちない MCはencodingなし MCはmodelが良くてもstandardと同程度、 modelが悪いと性能に壊滅的な悪影響を与 える 19

20.

MCTSより読みの効率良い、タスク間汎化も ● ● ● 完全なモデルを与える I2A@87とMCTS@87を比較すると読んだス テップ数が1桁違う MCTSは読みを増やせばさらに性能をあげ られるが、I2AもMC searchがつかえて、や はり高効率 ● ● 4boxでtrainした I2Aはstandardと比べて汎化 20

21.

実験2:MiniPacman ● ● ● 1つのモデルで異なるタスクに使える内部モデルを学習できるか実験 タスクを変更してもEMは追加で学習しない それでもI2Aがbaselineを上回る 21

22.

まとめ ● ● ● 不正確なプランニングをNNでうまく処理してmodel-free methodに取り込むことが できた 他のタスクに対して適用できるか、今後の発展に期待 あと、step数で比較しているが、内部シミュレーションが入っていないので計算コス トは増えている 22

23.

Learning model-based planning from scratch 23

24.

プランニングの構築の仕方自体も学習できないか ● ● 不正確性に対処できればプランニングは完成か?→ No! どこを読むか、どこで読みを打ち切るかはヒューリスティックに設計している ○ ● 読みを打ち切って行動してみるべきか、読むならどのノードから読みを始めるべきかは自由度があ る、それにimaginationはタダじゃない どこを、どこまで読むか決定するメタなエージェントも一緒に学習したい 24

25.

METACONTROL FOR ADAPTIVE IMAGINATION-BASED OPTIMIZATION[Hamrick 2017] ● ● ICML 2017 本論文と近いアイデア ○ ○ ● meta controllerが、行動するか否か、どの モデルでプランを評価するかを決める 計算コストの低いモデルを適合的に使い たいというモチベーション one-shot decision makingな問題 [Hamrick 2017]Metacontrol for adaptive imagination-based optimization, 2017 25

26.

Model ● Manager ○ 読みを打ち切るかどうか、どこから読み 始めるか決める ■ ○ ● 現在状態とMemoryの出力を受け取る imagineとactで共通 Imagination ○ ○ ● これまでの行動や読みの履歴を入力 Controller ○ ○ ● 行動空間はact or not + 読み始め候補のnode数 環境の内部モデル Interaction Networkを使う Memory ○ ○ 読みや行動の結果を文脈とともに記憶 LSTM 26

27.

Imagination Strategy ● 3つのimagination strategyを考えた ○ ○ ○ 1-step: 常に現在のノードから読みの続き を始める n-step: 常に最後のノードから読みの続き を始める tree: これまで読んだ任意のノードから読 みを始めて良い 27

28.

学習 ● Manager ○ ● Controller ○ ● タスクに関する lossのみを使いSVG Imagination ○ ● タスクに関する lossと、imaginationにか かるコストを報酬にして REINFORCE 現実で行動した際のデータを使って教師 あり学習 Memory ○ Controllerと同時に学習 28

29.

実験1:Spaceship task ● ● ● 目的の場所への到着を目指す 惑星どうしの複雑な重力場がある コントロールにも一定のノイズ 29

30.

結果 A. B. C. D. E. 読みを増やすと良くなる imagination costを増やすと、読みを 減らすよう学習できてる imagination costを増やすと、読みが 減ってtotal costは増える imagination strategyは 1-step<n-step<tree D.に同じ 下図は、生成されたimaginationとactionの 軌道 30

31.

実験2:Discrete mazes ● ● ● ● 迷路を解くタスク discrete domainにも適用してみる perfect modelを与えている その他、meta controllerを与えてしまうなど、ちょっと怪しい 31

32.

結果 ● ● ● 上図:タスク中に現れたimagination strategyの割合,状況により様々な strategyがあり得る 下図上 : 迷路同じでゴールが異なる。 imaginationによって異なるタスクにも 汎化 下図下:迷路もゴールも異なる場合 32

33.

まとめ ● ● ● ● プランニングの情報を用いて難しいcontinuous coutrolタスクの精度向上 加えて、meta controllerがimaginationのコストを見ながら、どこから読むのか、い つまで読むのかを学習してくれる 今後はより広範なタスクへの適用に期待 internal resource costをどう設計するかは謎 33

34.

おまけ)プランニングに関して、その他の方向性 34

35.

記号的推論、因果推論との統合 ● Schema Networks: Zero-shot Transfer with a Generative Causal Model of Intuitive Physics[Kansky 2017] ○ ○ ○ ○ ICML 2017 AIベンチャー, vicariousの論文 オブジェクト間の物理的な因果関係を獲 得して、目標から逆向きに推論する計画 問題を解く。物理法則が変化していない別 タスクにzero shotで適応できる。 DLじゃない [Kansky 2017]Schema networks: Zero-shot transfer with a generative causal model of intuitive physics. Accepted at International Conference for Machine Learning, 2017, 2017. 35

36.

物理的な関係推論 これまで難しかった環境の予測モデルができる? ● ● ● Interaction Network[Battaglia 2016] NIPS 2016 物理的な運動推論ができる ● ● Visual Interaction Network[Watters 2016] 画像から物理的な運動推論が可能 []Battaglia 2016]Interaction networks for learning about objects, relations and physics. In Advances in Neural Information Processing Systems, pages 4502–4510, 2016 [Watters 2016]Visual interaction networks,” CoRR, vol. abs/1706.01433, 2017. [Online]. Available: http://arxiv.org/abs/ 1706.01433. 36

37.

さらにその先? ● 既知の因果関係を組み合わせて、未知の因果関係を推測 ○ 0ショットで環境のモデルを獲得できる可能性がある 37

38.

まとめ ● ● ● ● プランニングの活用はRLにおいて大事 Imagination-Augmented Agents for Deep Reinforcement Learningでは、モデル にほぼ不可避な不正確性を扱う新しい方法を提案 Learning model-based planning from scratchでは、プランニングの構築自体を学 習する枠組みを提案、新しい課題に着手している その他にも、プランニングの新しい側面にチャレンジするための要素が少しずつで てきている 38