274 Views
November 27, 17
スライド概要
2017/11/27
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments Hiroaki Shioya, Matsuo Lab http://deeplearning.jp/
書誌情報 ● ● ● ICLR 2018 under review OpenAI 内容 ○ 環境が次々と変化していくタイプの問題に対する方策の学習をメタラーニングで解く 2
アウトライン ● 研究背景 ○ ○ ● 関連研究 ○ ● 問題設定 モチベーション Meta Learning 本研究 3
研究背景 強化学習 ● エージェントの良いふるまいを学習したい ● 問題設定 environment P, R, γ a s, r agent Π, V notation: s : 状態 a : 行動 r : 報酬 P:遷移関数 (s×a→s) R : 報酬関数 (s×a→r) Π:方策(s→a) V : 価値関数(s → v) γ : 割引率 環境との相互作用を通じて ΠやVを学習し、累積期待報酬和の最大化を目指す 4
研究背景 問題設定 stationaly environment non-stationaly environment 1つの決まったタスク を解く single task 性質が変化し続ける 1つのタスクを解く agent agent agent 定まった複数のタスクを 解く multi task 次々と現れる複数の タスクを(忘却せずに)解 く continual learning life-long learning agent agent agent 5
研究背景 問題設定 stationaly environment non-stationaly environment 1つの決まったタスク を解く single task 性質が変化し続ける 1つのタスクを解く agent agent 本研究の対象は、こ のセルのさらに一部 (環境の変化に何ら かの性質を仮定 ) agent 定まった複数のタスクを 解く multi task 次々と現れる複数の タスクを(忘却せずに)解 く agent agent agent 6
研究背景 モチベーション ● 汎用人工知能に向けて ○ ● 変化する環境に (素早く)適応するのは知的な振る舞いにおける重要な要素の一つ 実用上の観点 ○ ○ マルチエージェントシステム ■ 刻々と変化する他のエージェントに適応し続けなければならない 機械、器具の操作 ■ 現実の物質は扱っていくうちに変化する ● タイヤ、ギアの磨耗による挙動の変化など 7
研究背景 ソリューションに求められる性質 ● 変化する環境に適応する ● できるだけ素早く適応する ○ ○ Deep RLはsample inefficient 遅いと現環境に適応する前にまた環境が変わってしまう 8
関連研究 classicalな変化適応 ● 環境変化検出 + fine tuning(tracking) ● 大抵の場合、遅い ⇨ 環境が変わった際の学習の方法自体を学習してより賢くすれ ばよい? 9
関連研究 Meta Learning ● ある決まったバイアス,すなわち仮説空間の中から,事例に応じて,適切な仮説を 獲得する普通の学習器をベース学習器という.その上位で,学習対象のタスクやド メインに応じて,学習器のバイアスを決定するためのメタ知識を獲得するのがメタ 学習 http://ibisforest.org/index.php?%E3%83%A1%E3%82%BF%E5%AD%A6%E7%BF%92 10
関連研究 Meta Learningの例 ● 古典的な例 ○ ● Stacked generalization ■ 異なるバイアスのベース学習器の予測結果を特徴量として、メタ学習器をつくる ニューラルネットワーク ○ ○ ○ ○ optimizerの学習 タスクのembeding RLによる学習 fine tuningするのに良い初期値を学習 11
関連研究 Meta Learning + Reinforcement Learning : RL2 12
関連研究 Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks ある分布から生成されるタスクTでθからK step更新した結果得られたφでのlossが 最小化されるようなθを学習する ● ● あるタスク集合においてFine tuningすると良い値にいくような初期値を学習する 教師あり、教師なし、強化学習いずれにも使える 13
関連研究 MAML for RL 14
fast adaptation by MAML ● 数ステップで異なるタスクに適合できる 15
関連研究 複数環境に適応できる他の枠組みとの違い ● CVaR ○ ○ ● 複数の環境のうち、 worst caseに対応する方策を学習することで複数の環境にロバストな方策を得 る 追加の更新・適合なしで一つの方策が複数の環境に適合するには限界がある Context policy search ○ ○ ○ ポリシーの入力に contextとしてタスクを入れる (π(a|s) ⇨ π(a|s, ω), ω : タスク) 入力としてのタスクの表現が必要 経験をコンテクストにして meta agentをつくるとRL2 16
本研究 問題設定 ● タスクの遷移に依存関係を仮定する ○ ○ 段々と学習して強くなる敵エージェント (self-play) 機械の磨耗などは前の状態から連続的に変化する MAML 本研究 17
本研究 提案手法 ● ● タスク遷移の依存関係を踏まえてMAMLを変更 次にくるタスクが良くなるような初期値を探す 18
本研究 アルゴリズム実装上の細かいTips ● φiからφi + 1ではなく、常に同じパラメータθから適合を行う ○ ● 学習の安定性のため 上記の工夫のために、更新のためにθで環境からサンプリングする必要があるが、 テスト時にはφiを実行に使いたいので、重み付け変更 19
本研究 アルゴリズム実装上の細かいTips ● 学習率αもadaptiveに変更し、θと一緒に学習する ○ 学習の安定性のため 20
本研究 提案手法のアルゴリズム ● 先述のθからの更新により、訓練時と実行時のアルゴリズムが異なる 21
本研究 タスク a. b. c. 本研究で使用するエージェント タスク1. 選ばれた足のactivationが線形に1⇨0に減少する タスク2. RoboSumo. 2体のエージェントが相撲を行う,Tatamiから押し出したら勝 利 22
本研究 実験設計上の工夫 ● 環境設計 ○ ● 報酬設計 ○ ● 一定時間でdrawになる上、わずかな episodeで適合しなければならないため、勝ち負けのみの疎な 報酬では学習不可、よって Tatami中央からの距離も報酬に使う ■ unsupervisedなsense rewardを用いるなどは future work. エージェント設計 ○ ● RoboSumoでは、self-playによってpre-trainしたPPO agentを保存し、共通の環境とした ■ 敵エージェントの成長具合がばらばらだと手法間の比較がうまくできないため。真の意味での competitive scinarioはfuture work. Ant, Bug, Spiderの勝率が、初期状態では五分になるように頑張って重さとかを calibulationした(つ らそう) and more….. 23
本研究 実験結果1: dynamics ● ● 提案手法(緑とピンク)が、概ね他手法よりもうまく適合している シナリオが変わっても、3 episode程度で元の水準を保っている 24
本研究 実験結果2: RoboSumo ● ● 提案手法(赤)が、概ね他手法よりもうまく適合している 前の実験に比べると結果微妙 25
本研究 実験結果3: 適合速度と達成パフォーマンスの比較 ● ● ● meta learning(赤と青)はfine tuning(緑)に対して速い適合を見せる 適合を重ねると、fine tuningの方が最終的なパフォーマンスは上 学習時に定めたK step(ここではK = 3)を超えて更新してもうまくいく 26
本研究 実験結果4: RoboSumoのレーティング ● ● ● RoboSumoのTrueSkill(Elo ratingのようなもの)(上) TrueSkillに基づくランク(左下) 対戦勝率表(右下) ○ 同じネットワーク構造で比較する とMeta learnの方が良いが、 LSTMの方が効いてる 27
本研究 実験結果5: 勝ち残り形式 ● 提案手法を用いたエージェントが他を駆逐して増えていく 28
まとめ ● ● ● 環境が次々と変化していく問題に対して、メタラーニングの1手法であるMAMLを拡 張する手法を提案 ベースライン(Fine Tuning, RL2)と比較して、素早く適合して高パフォーマンスを達 成した 実験設計に細かな工夫が多く、実験するのとても大変そうだった 29