[DL輪読会]Generalization of Reinforcement Learners with Working and Episodic Memory

>100 Views

November 15, 19

スライド概要

2019/11/15
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

Generalization of Reinforcement Learners with Working and Episodic Memory

2.

書誌情報 • 著者 – Deepmind • 会議 – NIPS2019 • 概要 – 強化学習時のメモリの設計の仕方が、どのように汎化に関係するか、を調べましたという研究 2

3.

Working memoryとEpisodic memory • Working memory – 短期的な記憶 • 例:ある人と会話している時、その会話の内容を保持することで、会話が成立する。 • Episodic memory – 長期的な記憶。出来事の連続を経験として保持する。 • 例:美味しい焼肉を食べたことを一ヶ月後にも記憶している。 3

4.

メモリに関する汎化性能を試すテスト設計 • 強化学習でメモリを持ったエージェントはいろいろ提案されてる(e.g. IMPALA)が、どのようなメモ リがどのようなタスクに効果的で、また、学習されたメモリ機能がどれくらい汎化するのかは議論が あまりなされていない。 • 本論文では、メモリに関する汎化性能を評価するテストをまず設計し、その後様々なエージェントで テストして、いろいろな知見/洞察を得る。 4

5.

テスト • https://sites.google.com/view/memory-tasks-suite 5

6.

Memory Recall Agent • 以下から構成される – Pixel input – Working memory • LSTM – Episodic memory • MEM – Auxiliary contrastive loss – Jumpy backpropagation • Writeの時に、pとvの勾 配を止める 6

7.

MEMの詳細 • 過去の似たコンテキストの時の隠れ層の値を引っ張ってくる ためのスロット型のメモリ • Writing • Reading 𝑞と𝑘のL2-normが小さいKに対し 7

8.

実験結果 Ablation study • LSTM + MEM + CPCが一番良い 8

9.

タスク難度が上がるに従い、汎化誤差が増加 9

10.

MEM(episodic memory)は、いくつかのタスクで重要。 Auxiliary lossによって性能が改善する。 • • Adding MEM improved scores on nine tasks in training, six in holdout-interpolate, and six in holdout-extrapolate. Adding MEM helped to significantly boost holdout performance for Transitive Inference, AVM, and Continuous Recognition. 10

11.

Synergistic effect of MEM + CPC, for LSTM • LSTM + CPCの上がり幅とLSTM + MEMの 上がり幅の合計より、LSTM + MEM + CPC の上がり幅の方が大きい – MEM + CPCによってシナジー効果が生ま れてる? 11

12.

CPC vs. REC • ほとんどのタスクでCPCのほうがRECより良い – 特にMEMがある時は、CPCやRECによって汎化性能が増す – CPCはLSTMと相性が良く、RECはFFと相性が良い。 12

13.

Discussion & Future work • • • Working memoryとepisodic memoryに関する汎化性能を検証できるテストを作った。 Ablation studyを行い、ベンチマークを作った。 CPCや再構成誤差などの補助損失が、メモリの汎化性能向上につながる。 – 既存のepisodic memoryを使った手法も同様に、補助損失を使うことで性能あがるかも 13