[DL輪読会]Meta Reinforcement Learning

611 Views

February 01, 19

#deep learning #Reinforcement Learning #Meta Learning #Deep Learning #Markov Decision Process #DeepX

スライド概要

2019/02/01
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 84.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 54.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 38.8K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 33.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 32K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Meta Reinforcement Learning Reiji Hatsugai, DeepX http://deeplearning.jp/ 1

http://deeplearning.jp/

本日の発表について • 強化学習とメタラーニングという２つのhot topicの交差点についてまとめる • メタラーニングの定義に強化学習を当てはめて考え、各々の論文で行っているメタタスクを俯瞰的にみる • どのような手法を用いてメタタスクにアプローチをしているのかまとめる 2

Meta Reinforcement Learningとは何か • 「与えられた複数のタスクやドメインを使って、学習対象となるタスクやドメインに対する学習器のバイアスを決定するためのメタ知識を獲得する」 – 通常のメタラーニングの意味 – 2018/12/14の阿久澤さんの発表資料を参考にしています • メタ強化学習では、タスクやドメインにMDPを、学習器にエージェントを当てはめる • つまり、 • 「与えられた複数のMDPを使って、学習対象となるMDPに対するエージェントのバイアスを決定するためのメタ知識を獲得する」 3

Markov Decision Process • MDPは<S, A, T, R>の4つ組で表される – – – – S：状態の有限集合 A：行動の有限集合 T：遷移関数 R：報酬関数 • MDPを変更する ⇔ この4要素のどれかに手を加える 4

具体的なメタ強化学習用タスク • • • • • • Dir vel HC Ant Disable HC Ant HC difficult ハーロウ Navigation 多椀bandit 5

Direction and velocity control in Half Cheetah and Ant Direction: 報酬関数が、進む向きによって変わる Velocity: 報酬関数が、進む速度によって変わる MAML, SNAILにて実験 6

Disabled joint or leg in Half Cheetah and Ant 関節や、脚が不自由になるテスト時には訓練時に不自由にならなかった関節が不自由になるものも試している Model Based MAMLで実験 7

Half Cheetah with difficult environment 傾斜のついた坂や、水の上に浮かんでいるようなダイナミクスになる床をタスクにしている坂の傾斜や、床の動き方を変化させる Model Based MAMLで実験 8

ハーロウの実験ランダムな２つの物体のどちらか片方を選択すると正の報酬で、もう片方だと負の報酬 2つの物体は6回連続で出現する Prefrontal Cortex as a meta reinforcement learning systemにて実験 9

10.

Navigation Task 一人称画像入力を元に、迷路のゴールを見つけるタスクが変わる毎に、迷路の形状が変化する RL2, SNAILで実験 10

11.

多椀Bandit • スロットマシンの確率分布をタスクとみなす RL2, SNAILにて実験 11

12.

各タスク毎のMDP対応早表 S A T R Dir vel HC Ant ✗ ✗ ✗ ❍ Disable HC Ant ✗ ❍ ✗ ✗ HC difficult ✗ ✗ ❍ ✗ ハーロウ ❍ ✗ ✗ ❍ Navigation ❍ ✗ ❍ ✗ 多椀bandit ❍ ✗ ✗ ✗ ❍がタスク生成時の変更箇所で、✗がタスクで共通しているもの 12

13.

How to solve these problems? 13

14.

How to solve these problems? A) Model Based RL B) MAML C) Model Architecture 14

15.

How to solve these problems? A) Model Based RL B) MAML C) Model Architecture 15

16.

Model Based RLによるメタRL • Modelの学習は教師あり学習とみなすことができる – f(s_t, a_t) = s_{t+1} • Learning to Adapt Dynamic, Real-World Environments through MetaReinforcement Learning – モデルの学習にMAMLとRNNベースのoptimizerを用いる • Meta Reinforcement Learning with Latent Variable Gaussian Processes – モデルに、潜在状態をもつガウシアンプロセスを採用 – 潜在状態をタスクごとに推定する • そもそも論として、報酬関数が手に入る状況では、単純なモデルベース強化学習だけでRに関するタスクの変動に対応可能 16

17.

How to solve these problems? A) Model Based RL B) MAML C) Model Architecture 17

18.

Model Agnostic Meta Learning • 勾配法で学習しているモデル全般に使えるメタラーニング手法 – タスク毎にアップデートされたパラメータを元にメタロス関数を計算し、アップデート前のパラメータを最適化する • 勾配法で学習する強化学習アルゴリズムに適用可能 18

19.

How to solve these problems? A) Model Based RL B) MAML C) Model Architecture 19

20.

Model Architectureによるメタ強化学習 • 記憶装置をもたせたモデル構造を使用し、状態だけでなく自身が行った行動と報酬を入力にする – 強化学習が時系列タスクであることを利用している – s_t, a_t, s_{t+1}を入力に持っているので、（暗に）MDPの変化を見ることができる – エピソード間で記憶装置を引き継ぐことも可能（異なるMDP間では引き継がない） 20

21.

RL2: Fast RL via Slow RL • アーキテクチャにRNN（GRU）を採用 • MDP毎に隠れ状態をリセットする 21

22.

A Simple Neural Attentive Meta-Learner • アーキテクチャにWaveNetとAttentionを組み込んだものを採用オレンジ：Temporal Convolution 緑：Causal Attention 22

23.

Prefrontal Cortex as a Meta-Reinforcement Learning System • アーキテクチャにLSTMを採用 • アーキテクチャの論文というよりは、前頭前皮質におけるドーパミンの働きを、報酬関数を入力にしたLSTMで模していると主張 • 結果的にメタ強化学習になり、心理学の分野で行われているような実験（ハーロウの実験）の結果を再現する（？） 23

24.

A, B, Cのうち、どの手法を使ったらいいのか？ 24

25.

Direction and velocity control in Half Cheetah and Ant Direction: 報酬関数が、進む向きによって変わる Velocity: 報酬関数が、進む速度によって変わる MAML, SNAILにて実験 25

26.

B（MAML）とC（Model Architecture）の比較 • 方向や速度による報酬関数の変化タスク（with HC, Ant）での比較 • ずるい比較ではあるがModel Architectureの圧勝 – 見たことがあるタスクが来るなら、Model Architectureを用いるほうがよい？ – MAMLは学習のステップがある分不利 26

27.

Disabled joint or leg in Half Cheetah and Ant 関節や、脚が不自由になるテスト時には訓練時に不自由にならなかった関節が不自由になるものも試している Model Based MAMLで実験 27

28.

Trainで見たこと無いタスクがTestで出てくる場合１ • Disabled joint or leg（with HC, Ant） – 不自由になるjointやlegが、meta trainingの時と違う場合もテストしている • Model Based MAMLとMAML-RLで実施 • Sample効率ではModel Based MAMLが圧倒 – 最終スコアはMAML-RLが強い • これ系のタスクでModel Architecture系はどこまで頑張れるのか（未実験） – ある意味、強化学習の汎化問題ともいえる気がする（？） 28

29.

まとめ • メタ強化学習とは何か、既存のメタラーニングの定義に沿って表現 • メタ強化学習で使われる評価タスクについて、MDPの対応関係をまとめた • 具体的なメタ強化学習手法について紹介 • メタ強化学習手法間の関係性について結果比較 29

30.

感想 • メタ強化学習を俯瞰的にまとめてみました • まとめることで、まだ取り組まれていない課題や新たな可能性が広がることを期待 – 各手法間の適用可能環境 – メタ学習器の構成方法 • 実務応用的観点から言うと、 – どこをメタにして環境を作成するか – メタにした部分は学習可能なのか – それに適したアルゴリズムは？ • など、環境定義の部分から様々な配慮が必要であると感じた 30