427 Views
February 01, 19
スライド概要
2019/02/01
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Meta Reinforcement Learning Reiji Hatsugai, DeepX http://deeplearning.jp/ 1
本日の発表について • 強化学習とメタラーニングという2つのhot topicの交差点についてまとめる • メタラーニングの定義に強化学習を当てはめて考え、 各々の論文で行っているメタタスクを俯瞰的にみる • どのような手法を用いてメタタスクにアプローチをしているのかまとめる 2
Meta Reinforcement Learningとは何か • 「与えられた複数のタスクやドメインを使って、学習対象となるタスクやドメ インに対する学習器のバイアスを決定するためのメタ知識を獲得する」 – 通常のメタラーニングの意味 – 2018/12/14の阿久澤さんの発表資料を参考にしています • メタ強化学習では、タスクやドメインにMDPを、学習器にエージェントを当 てはめる • つまり、 • 「与えられた複数のMDPを使って、学習対象となるMDPに対するエージェン トのバイアスを決定するためのメタ知識を獲得する」 3
Markov Decision Process • MDPは<S, A, T, R>の4つ組で表される – – – – S:状態の有限集合 A:行動の有限集合 T:遷移関数 R:報酬関数 • MDPを変更する ⇔ この4要素のどれかに手を加える 4
具体的なメタ強化学習用タスク • • • • • • Dir vel HC Ant Disable HC Ant HC difficult ハーロウ Navigation 多椀bandit 5
Direction and velocity control in Half Cheetah and Ant Direction: 報酬関数が、 進む向きによって変わる Velocity: 報酬関数が、 進む速度によって変わる MAML, SNAILにて実験 6
Disabled joint or leg in Half Cheetah and Ant 関節や、脚が不自由になる テスト時には訓練時に不自由にならなかった関節が 不自由になるものも試している Model Based MAMLで実験 7
Half Cheetah with difficult environment 傾斜のついた坂や、水の上に浮かんでいるような ダイナミクスになる床をタスクにしている 坂の傾斜や、床の動き方を変化させる Model Based MAMLで実験 8
ハーロウの実験 ランダムな2つの物体の どちらか片方を選択すると正の報酬で、 もう片方だと負の報酬 2つの物体は6回連続で出現する Prefrontal Cortex as a meta reinforcement learning systemにて実験 9
Navigation Task 一人称画像入力を元に、迷路のゴールを見つける タスクが変わる毎に、迷路の形状が変化する RL2, SNAILで実験 10
多椀Bandit • スロットマシンの確率分布をタスクとみなす RL2, SNAILにて実験 11
各タスク毎のMDP対応早表 S A T R Dir vel HC Ant ✗ ✗ ✗ ❍ Disable HC Ant ✗ ❍ ✗ ✗ HC difficult ✗ ✗ ❍ ✗ ハーロウ ❍ ✗ ✗ ❍ Navigation ❍ ✗ ❍ ✗ 多椀bandit ❍ ✗ ✗ ✗ ❍がタスク生成時の変更箇所で、✗がタスクで共通しているもの 12
How to solve these problems? 13
How to solve these problems? A) Model Based RL B) MAML C) Model Architecture 14
How to solve these problems? A) Model Based RL B) MAML C) Model Architecture 15
Model Based RLによるメタRL • Modelの学習は教師あり学習とみなすことができる – f(s_t, a_t) = s_{t+1} • Learning to Adapt Dynamic, Real-World Environments through MetaReinforcement Learning – モデルの学習にMAMLとRNNベースのoptimizerを用いる • Meta Reinforcement Learning with Latent Variable Gaussian Processes – モデルに、潜在状態をもつガウシアンプロセスを採用 – 潜在状態をタスクごとに推定する • そもそも論として、報酬関数が手に入る状況では、単純なモデルベース強化学 習だけでRに関するタスクの変動に対応可能 16
How to solve these problems? A) Model Based RL B) MAML C) Model Architecture 17
Model Agnostic Meta Learning • 勾配法で学習しているモデル全般に使えるメタラーニング手法 – タスク毎にアップデートされたパラメータを元にメタロス関数を計算し、 アップデート前のパラメータを最適化する • 勾配法で学習する強化学習アルゴリズムに適用可能 18
How to solve these problems? A) Model Based RL B) MAML C) Model Architecture 19
Model Architectureによるメタ強化学習 • 記憶装置をもたせたモデル構造を使用し、状態だけでなく自身が行った行動と 報酬を入力にする – 強化学習が時系列タスクであることを利用している – s_t, a_t, s_{t+1}を入力に持っているので、(暗に)MDPの変化を見ることができる – エピソード間で記憶装置を引き継ぐことも可能(異なるMDP間では引き継がない) 20
RL2: Fast RL via Slow RL • アーキテクチャにRNN(GRU)を採用 • MDP毎に隠れ状態をリセットする 21
A Simple Neural Attentive Meta-Learner • アーキテクチャにWaveNetとAttentionを組み込んだものを採用 オレンジ:Temporal Convolution 緑:Causal Attention 22
Prefrontal Cortex as a Meta-Reinforcement Learning System • アーキテクチャにLSTMを採用 • アーキテクチャの論文というよりは、前頭前皮質におけるドーパミンの働きを、 報酬関数を入力にしたLSTMで模していると主張 • 結果的にメタ強化学習になり、心理学の分野で行われているような実験(ハー ロウの実験)の結果を再現する(?) 23
A, B, Cのうち、どの手法を使ったらいいのか? 24
Direction and velocity control in Half Cheetah and Ant Direction: 報酬関数が、 進む向きによって変わる Velocity: 報酬関数が、 進む速度によって変わる MAML, SNAILにて実験 25
B(MAML)とC(Model Architecture)の比較 • 方向や速度による報酬関数の変化タスク(with HC, Ant)での比較 • ずるい比較ではあるがModel Architectureの圧勝 – 見たことがあるタスクが来るなら、Model Architectureを用いるほうがよい? – MAMLは学習のステップがある分不利 26
Disabled joint or leg in Half Cheetah and Ant 関節や、脚が不自由になる テスト時には訓練時に不自由にならなかった関節が 不自由になるものも試している Model Based MAMLで実験 27
Trainで見たこと無いタスクがTestで出てくる場合1 • Disabled joint or leg(with HC, Ant) – 不自由になるjointやlegが、meta trainingの時と違う場合もテストしている • Model Based MAMLとMAML-RLで実施 • Sample効率ではModel Based MAMLが圧倒 – 最終スコアはMAML-RLが強い • これ系のタスクでModel Architecture系はどこまで頑張れるのか(未実験) – ある意味、強化学習の汎化問題ともいえる気がする(?) 28
まとめ • メタ強化学習とは何か、既存のメタラーニングの定義に沿って表現 • メタ強化学習で使われる評価タスクについて、MDPの対応関係をまとめた • 具体的なメタ強化学習手法について紹介 • メタ強化学習手法間の関係性について結果比較 29
感想 • メタ強化学習を俯瞰的にまとめてみました • まとめることで、まだ取り組まれていない課題や新たな可能性が広がることを 期待 – 各手法間の適用可能環境 – メタ学習器の構成方法 • 実務応用的観点から言うと、 – どこをメタにして環境を作成するか – メタにした部分は学習可能なのか – それに適したアルゴリズムは? • など、環境定義の部分から様々な配慮が必要であると感じた 30