[DL輪読会]Generalization of Reinforcement Learners with Working and Episodic Memory

>100 Views

November 15, 19

#deep learning #Reinforcement Learning #DeepMind #Memory Design #Working Memory #Episodic Memory

スライド概要

2019/11/15
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 83.3K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 53K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 38.3K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 33.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 30.6K

各ページのテキスト

Generalization of Reinforcement Learners with Working and Episodic Memory

書誌情報 • 著者 – Deepmind • 会議 – NIPS2019 • 概要 – 強化学習時のメモリの設計の仕方が、どのように汎化に関係するか、を調べましたという研究 2

Working memoryとEpisodic memory • Working memory – 短期的な記憶 • 例：ある人と会話している時、その会話の内容を保持することで、会話が成立する。 • Episodic memory – 長期的な記憶。出来事の連続を経験として保持する。 • 例：美味しい焼肉を食べたことを一ヶ月後にも記憶している。 3

メモリに関する汎化性能を試すテスト設計 • 強化学習でメモリを持ったエージェントはいろいろ提案されてる(e.g. IMPALA)が、どのようなメモリがどのようなタスクに効果的で、また、学習されたメモリ機能がどれくらい汎化するのかは議論があまりなされていない。 • 本論文では、メモリに関する汎化性能を評価するテストをまず設計し、その後様々なエージェントでテストして、いろいろな知見/洞察を得る。 4

テスト • https://sites.google.com/view/memory-tasks-suite 5

https://sites.google.com/view/memory-tasks-suite

Memory Recall Agent • 以下から構成される – Pixel input – Working memory • LSTM – Episodic memory • MEM – Auxiliary contrastive loss – Jumpy backpropagation • Writeの時に、pとvの勾配を止める 6

MEMの詳細 • 過去の似たコンテキストの時の隠れ層の値を引っ張ってくるためのスロット型のメモリ • Writing • Reading 𝑞と𝑘のL2-normが小さいKに対し 7

実験結果 Ablation study • LSTM + MEM + CPCが一番良い 8

タスク難度が上がるに従い、汎化誤差が増加 9

10.

MEM（episodic memory）は、いくつかのタスクで重要。 Auxiliary lossによって性能が改善する。 • • Adding MEM improved scores on nine tasks in training, six in holdout-interpolate, and six in holdout-extrapolate. Adding MEM helped to significantly boost holdout performance for Transitive Inference, AVM, and Continuous Recognition. 10

11.

Synergistic effect of MEM + CPC, for LSTM • LSTM + CPCの上がり幅とLSTM + MEMの上がり幅の合計より、LSTM + MEM + CPC の上がり幅の方が大きい – MEM + CPCによってシナジー効果が生まれてる？ 11

12.

CPC vs. REC • ほとんどのタスクでCPCのほうがRECより良い – 特にMEMがある時は、CPCやRECによって汎化性能が増す – CPCはLSTMと相性が良く、RECはFFと相性が良い。 12

13.

Discussion & Future work • • • Working memoryとepisodic memoryに関する汎化性能を検証できるテストを作った。 Ablation studyを行い、ベンチマークを作った。 CPCや再構成誤差などの補助損失が、メモリの汎化性能向上につながる。 – 既存のepisodic memoryを使った手法も同様に、補助損失を使うことで性能あがるかも 13