>100 Views
November 08, 19
スライド概要
2019/11/08
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP “Learning to Predict without Looking Ahead: World Models without Forward Prediction” NeurIPS2019 [DL Papers] Yusuke Iwasawa, Matsuo Lab http://deeplearning.jp/
書誌情報 • 著者:C. Daniel Freeman, Luke Metz, David Ha • 所属:Google Brain • 概要: – 世界モデル研究(a.k.a モデルベース強化学習)系の研究 – 世界モデル研究では、多くの場合完璧な順モデルを学習しようとす るが、順モデルとしての完璧さは必ずしも必須ではない – 順モデルとしての正しさを保証するのではなく、Observational Dropoutという観測系列の一部を隠す技法と組み合わせて方策と 世界モデルを学習することで有用な世界モデルが学習できる • 注意:モデルベース強化学習の説明については過去の阿久澤 くんの輪読資料に依拠しています 2
背景:モデルベース強化学習 • 記法 – s:状態, o:観測, a:行動 – M: モデル(時刻tにおけるsとtから次の時刻のsを予測), – π:方策(何らかの情報からaを決定) • モデルベース強化学習では環境のモデルMを学習する • 活用方法 – シミュレータとして使う – 表現学習として使う – 探索に使う • 理屈としてはモデルフリーより効率が良いはず • 人もこういう外界の予測モデルを持っているはず 3
モデルベース強化学習の進展 • モデルのパラメータを同定するような研究は古くからあるが 近年はより複雑なモデルを使う方向で研究が進んでいる • ロボットやAtariで予測誤差を最小化するように学習された モデルが活用されてきている(サンプル効率の改善) 4
多くの場合、「モデル」というのは正確な順モデルを暗に指す • 要は完璧な順モデルの訓練を目標としてモデルが学習される – 通常Prediction Errorで学習される • 系列モデルとしての改良が主たる研究対象 – [David Ha+2018] VAE+MDRNN(不確実性への対処) – [Danijar+2018] 離散の潜在変数を持つ系列モデル – [Hafner+2019] Planet(Latent Overshooting) – 詳しくは阿久澤くんの資料を参照 5
本研究の問い:世界モデルは(正確な)順モデルなのか? • そもそも人間の脳におけるモデルは生存の仮定で自然に現れ たもので、予測誤差を最小化することを目的として生まれた のではないのでは? • 必ずしも予測誤差を最小化するように予測モデルを訓練する のが最適とは限らないのでは? • 本研究では、観測系列の一部が確率的にエージェントの内部 のモデルから生成されたものに置き換わるような環境を考え ることで、「世界モデル」が暗黙的に現れることを示す 6
Observational Dropout • 観測系列の一部が確率的に内部モデルの予測に変わる環境でエー ジェントを学習 • 上記の図だと1フレームと8フレームだけが真の環境からの 観測が得られていて他は予測(グレー)が観測される • (書いてない気がしたけど多分1フレーム目は必ず真の状態) 7
Observational Dropoutの動画 8
方策と世界モデルは同時に報酬最大化により学習 • 方策と世界モデルは同時に学習 • 手法はREINFORCE系 • 報酬は真の環境から得られる(左図 には無い) • 下記のようなPOMDP環境を考えて いるとみなせる(rは0, 1uniform) 観測されない 観測される 9
実験1:Swing Up Cart Pole • Cartpoleで棒を上げて安定させる(P7の図参照) • (1) 棒が上にないときはエネルギーを与える • (2) 棒が安定しているときは力を消す(加えない) • ことを学習する必要がある 10
真の観測が得られる確率と報酬 • 黄色の点は各試行(10回ずつ)、 黒線が平均 • 右に行くほど真の観測が得られる • 報酬は学習環境での報酬(多分) • (結果)10%程度しか真の観測が 得られなくても同程度の精度 11
フレーム予測の手法との比較 • • • • Observational Dropoutの環境で学習した方策を真の環境にデプロイした場合の精度 黄色の点は各試行(10回ずつ)、黒線が平均 赤線が同じキャパのフレーム予測で訓練したモデルを使って方策を別途学習 (結果)Observational Dropoutを強く行うほど真の環境での精度が高い (1%だとフレーム予測よりよい) • (注意)ただし、方策やモデルの容量を大きくするとこうはならない 12
定性的な評価 • https://learningtopredict.github.io/ 13
実験2:Grid World • • • • リンゴを取ると報酬、火にあたると負の報酬 中心に自分がいる 行動は上下左右とNOOP 方策、モデルともにFeedforward 14
真の観測が得られる確率と報酬におけるモデル構造での比較 • (結果)全結合よりCNNが良い(Inductive Biasが重要だと言っている) • (感想)それはまぁ当たり前ではという気がする 15
学習されたモデルの予測精度 • (結果)いくつかの行動に対してのみ予測が当たるようになる(上の例だと下と右) • (解釈)多分この2つの行動だけで報酬が最大化できるから • (結果)見えない部分は当たらない 16
モデルの予測精度の比較(CNN vs. FC) CNN FC 17
実験3:Car Racing • トラックを回るタスク • 高次元観測 • 画像観測ではなく、VAEで圧縮 した表現を観測として使う (要はDavidの”World Model” と同じ) • モデルは潜在表現の差分を予測 • 方策は線形方策 18
真の観測が得られる確率と報酬 • 黄色の点は各試行(10回ずつ)、 黒線が平均 • 右に行くほど真の観測が得られる • 報酬は学習環境での報酬(多分) • (結果)30%程度しか真の観測が 得られなくても同程度の精度 • (補足)スコア800はある程度普 通にトラックを回るくらい 19
Ha and Shmidhuberとの比較 20
定性評価 • 載ってたがよくわからなかった(時間あったらもう一度読 む) 21
まとめと感想 • フレーム予測以外で世界モデルを学習する • 具体的には、観測系列の一部が内部モデルでの予測にすり替わる ような環境で、報酬最大化として訓練 • 上記の学習で得られたモデルは、予測モデルとして完璧ではない が機能する • (感想)フレーム予測でモデルを学習すべきなのかという 問題意識はよく分かる • (感想)観測系列の一部を隠すというのは、暗黙的に予測が重要 であることを仮定しているのと同じなきもする (まぁ予測誤差を使わないという意味では違うが) • 内的報酬とかのはなしと絡めると面白そう 22