[DL輪読会]“Learning to Predict without Looking Ahead: World Models without Forward Prediction” NeurIPS2019

>100 Views

November 08, 19

#deep learning #research paper #world models #observational dropout #reinforcement learning

スライド概要

2019/11/08
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.3K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 37.9K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.3K

各ページのテキスト

DEEP LEARNING JP “Learning to Predict without Looking Ahead: World Models without Forward Prediction” NeurIPS2019 [DL Papers] Yusuke Iwasawa, Matsuo Lab http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 • 著者：C. Daniel Freeman, Luke Metz, David Ha • 所属：Google Brain • 概要： – 世界モデル研究（a.k.a モデルベース強化学習）系の研究 – 世界モデル研究では、多くの場合完璧な順モデルを学習しようとするが、順モデルとしての完璧さは必ずしも必須ではない – 順モデルとしての正しさを保証するのではなく、Observational Dropoutという観測系列の一部を隠す技法と組み合わせて方策と世界モデルを学習することで有用な世界モデルが学習できる • 注意：モデルベース強化学習の説明については過去の阿久澤くんの輪読資料に依拠しています 2

背景：モデルベース強化学習 • 記法 – s:状態, o:観測, a:行動 – M: モデル（時刻tにおけるsとtから次の時刻のsを予測）, – π:方策（何らかの情報からaを決定） • モデルベース強化学習では環境のモデルMを学習する • 活用方法 – シミュレータとして使う – 表現学習として使う – 探索に使う • 理屈としてはモデルフリーより効率が良いはず • 人もこういう外界の予測モデルを持っているはず 3

モデルベース強化学習の進展 • モデルのパラメータを同定するような研究は古くからあるが近年はより複雑なモデルを使う方向で研究が進んでいる • ロボットやAtariで予測誤差を最小化するように学習されたモデルが活用されてきている（サンプル効率の改善） 4

多くの場合、「モデル」というのは正確な順モデルを暗に指す • 要は完璧な順モデルの訓練を目標としてモデルが学習される – 通常Prediction Errorで学習される • 系列モデルとしての改良が主たる研究対象 – [David Ha+2018] VAE+MDRNN（不確実性への対処） – [Danijar+2018] 離散の潜在変数を持つ系列モデル – [Hafner+2019] Planet（Latent Overshooting） – 詳しくは阿久澤くんの資料を参照 5

本研究の問い：世界モデルは（正確な）順モデルなのか？ • そもそも人間の脳におけるモデルは生存の仮定で自然に現れたもので、予測誤差を最小化することを目的として生まれたのではないのでは？ • 必ずしも予測誤差を最小化するように予測モデルを訓練するのが最適とは限らないのでは？ • 本研究では、観測系列の一部が確率的にエージェントの内部のモデルから生成されたものに置き換わるような環境を考えることで、「世界モデル」が暗黙的に現れることを示す 6

Observational Dropout • 観測系列の一部が確率的に内部モデルの予測に変わる環境でエージェントを学習 • 上記の図だと1フレームと8フレームだけが真の環境からの観測が得られていて他は予測（グレー）が観測される • （書いてない気がしたけど多分1フレーム目は必ず真の状態） 7

Observational Dropoutの動画 8

方策と世界モデルは同時に報酬最大化により学習 • 方策と世界モデルは同時に学習 • 手法はREINFORCE系 • 報酬は真の環境から得られる（左図には無い） • 下記のようなPOMDP環境を考えているとみなせる（rは0, 1uniform) 観測されない観測される 9

10.

実験１：Swing Up Cart Pole • Cartpoleで棒を上げて安定させる（P7の図参照） • (1) 棒が上にないときはエネルギーを与える • (2) 棒が安定しているときは力を消す（加えない） • ことを学習する必要がある 10

11.

真の観測が得られる確率と報酬 • 黄色の点は各試行（10回ずつ）、黒線が平均 • 右に行くほど真の観測が得られる • 報酬は学習環境での報酬（多分） • （結果）10%程度しか真の観測が得られなくても同程度の精度 11

12.

フレーム予測の手法との比較 • • • • Observational Dropoutの環境で学習した方策を真の環境にデプロイした場合の精度黄色の点は各試行（10回ずつ）、黒線が平均赤線が同じキャパのフレーム予測で訓練したモデルを使って方策を別途学習（結果）Observational Dropoutを強く行うほど真の環境での精度が高い（1%だとフレーム予測よりよい） • （注意）ただし、方策やモデルの容量を大きくするとこうはならない 12

13.

定性的な評価 • https://learningtopredict.github.io/ 13

https://learningtopredict.github.io/

14.

実験２：Grid World • • • • リンゴを取ると報酬、火にあたると負の報酬中心に自分がいる行動は上下左右とNOOP 方策、モデルともにFeedforward 14

15.

真の観測が得られる確率と報酬におけるモデル構造での比較 • （結果）全結合よりCNNが良い（Inductive Biasが重要だと言っている） • （感想）それはまぁ当たり前ではという気がする 15

16.

学習されたモデルの予測精度 • （結果）いくつかの行動に対してのみ予測が当たるようになる（上の例だと下と右） • （解釈）多分この２つの行動だけで報酬が最大化できるから • （結果）見えない部分は当たらない 16

17.

モデルの予測精度の比較（CNN vs. FC) CNN FC 17

18.

実験３：Car Racing • トラックを回るタスク • 高次元観測 • 画像観測ではなく、VAEで圧縮した表現を観測として使う（要はDavidの”World Model” と同じ） • モデルは潜在表現の差分を予測 • 方策は線形方策 18

19.

真の観測が得られる確率と報酬 • 黄色の点は各試行（10回ずつ）、黒線が平均 • 右に行くほど真の観測が得られる • 報酬は学習環境での報酬（多分） • （結果）30%程度しか真の観測が得られなくても同程度の精度 • （補足）スコア800はある程度普通にトラックを回るくらい 19

20.

Ha and Shmidhuberとの比較 20

21.

定性評価 • 載ってたがよくわからなかった（時間あったらもう一度読む） 21

22.

まとめと感想 • フレーム予測以外で世界モデルを学習する • 具体的には、観測系列の一部が内部モデルでの予測にすり替わるような環境で、報酬最大化として訓練 • 上記の学習で得られたモデルは、予測モデルとして完璧ではないが機能する • （感想）フレーム予測でモデルを学習すべきなのかという問題意識はよく分かる • （感想）観測系列の一部を隠すというのは、暗黙的に予測が重要であることを仮定しているのと同じなきもする（まぁ予測誤差を使わないという意味では違うが） • 内的報酬とかのはなしと絡めると面白そう 22