[DL輪読会]Continuous Deep Q-Learning with Model-based Acceleration

>100 Views

February 22, 17

スライド概要

2017/2/22
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

Deep Learning JP 輪読 Continuous Deep Q-Learning with Model-based Acceleration 那須野薫 東京大学松尾研究室 2017年1月6日

2.

紹介する文献 • タイトル – Continuous Deep Q-Learning with Model-based Acceleration • 著者 – Shixiang Gu, Timothy Lillicrap, Ilya Sutskever, Sergey Levine • 発表 – 2016年3月 • 選択理由 – DRLで – Sample Efficiencyに – 取り組んでいるため。 東京大学松尾研究室 那須野薫 2017年1月6日 2

3.

概要の訳(Google 翻訳ベース) モデルフリーの強化学習は、幅広い困難な問題にうまく適用され、最近は大規模なNN ポリシーや価値関数を扱うように拡張された。 しかし、モデルフリーアルゴリズム(が必要とする)サンプルの複雑性は、特に高次元 近似関数を使用する場合、物理系への適用を制限する傾向がある。 本稿では、連続値による制御タスクのための深層強化学習(が必要とする)サンプルの 複雑性を軽減するためのアルゴリズムと表現について説明する。 我々は、このようなアルゴリズムの効率を改善するための2つの補完的な手法を提案す る。 まず、より一般的に使用されるpolicy gradientおよびactor criticの代わりに、正規化され たadvantage function(NAF)と呼ばれるQ-Learningアルゴリズムの連続値への変形を導 出する。 NAFの表現を使用することで、experience replayによるQ-Learningを行動空間が連続値の タスクに適用でき、シミュレーションによる幅広いのロボット制御タスクのパフォー マンスが大幅に向上した。 我々のアプローチの効率をさらに向上させるために、モデルフリー強化学習を加速す るための学習済みのモデルの使用法を検討した。 iteratively refitted local linear modelsが特に効果的であり、そのようなモデルが適用可能 な領域での学習が大幅に高速であることを示された。 東京大学松尾研究室 那須野薫 2017年1月6日 3

4.

主な貢献 • 行動空間が連続値の問題において効果的なQ-learningを可能にするQ関 数の表現を導出し評価した。 • 学習済みの(システムダイナミクスの)モデルをモデルフリーのQlearningに組み込むための、いくつかの選択肢を評価し、連続値の制御 タスクで小さい効果があることを示した。 • 局所線形モデルと局所on-policyなimagination rolloutsを組み合わせるこ とで、モデルフリーの連続値のQ-learningを加速させ、サンプルの複雑 さを大幅に改善できることを示した。 • 上記のため、シミュレーションによる幅広いロボットタスクに対して、 提案手法を適用し、従来手法と比較した。 東京大学松尾研究室 那須野薫 2017年1月6日 4

5.

前提 • 既存手法 – DQN:行動空間が離散値、 Q-learning – DDPG:行動空間が連続値、Actor Critic • 今回 – NAF:行動空間が連続値、Q-learning 東京大学松尾研究室 那須野薫 2017年1月6日 5

6.

DDPG 方策更新のイメージ 「あっちの方がいい」 ただ、方策が壊れやすい。 行きすぎてデータ点がな いところまで行ってしまう 等のためか。 東京大学松尾研究室 那須野薫 2017年1月6日 6

7.

NAF単体 Aは常に負。 Qが最大となる方策uは常にμ と なる。 P = 𝐿𝐿𝑇 Lは下三角行列、 各成分は線形NNの出力で、特 に対角成分はexp(x)にかけてあ る。 << expかける理由がわからない。 わかる人いたら教えてください。 << どうやら正定値行列にするに は対角成分がすべて正である必 要があるらしい。 方策更新のイメージ 「ここら辺がいい」 東京大学松尾研究室 那須野薫 2017年1月6日 7

8.

NAF + iLQG + Imagination Rollouts iLQG Exploration(あんまきかない) モデルMを使ってシミュレートして、fictional bufferにいれる。 fictional bufferとreplay bufferからサンプリングして、NNを学習。 system dynamicsをadditional bufferのデータで学習・更新 東京大学松尾研究室 那須野薫 2017年1月6日 8

9.

実験結果 DDPGとNAFの比較 東京大学松尾研究室 那須野薫 2017年1月6日 9

10.

実験結果 Imagination RolloutsやiLQG Explorationの効果 東京大学松尾研究室 那須野薫 2017年1月6日 10