[DL輪読会]High Fidelity Video Prediction with Large Stochastic Recurrent Neural Networks

153 Views

January 10, 20

スライド概要

2020/01/10
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

High Fidelity Video Prediction with Large Stochastic Recurrent Neural Networks

2.

概要 ● High Fidelity Video Prediction with Large Stochastic Recurrent Neural Networks ● University of Michigan, Google Research, Adobe Research ● NeurIPS2019 ● 映像予測系。 ● 映像の自由度が高く、未来が一意に定まらない場合に広く使える手法を提案 ○ モデルのキャパシティを大きくすることは正義 ● (自分の卒論の上位互換説…)

3.

生成されたもの ● 映像 ○ https://sites.google.com/view/videopredictioncapacity ● すごい ● 厳しめに見ると、 ● タオル ○ ◎引っ張られることは理解してそう ○ △テクスチャはとろけてる ● Human ○ ◎予測した動きは違っても鮮明 ○ △smallは足がもつれてそう・人がフェードアウトしがち ● KITTI ○ ◎並木道の木はヒントがなくても生成できてる。 ○ △前方車両、歩道の白線がフェードアウトしてる

4.

モチベーション ● 映像予測は大事。 ○ 映像を予測できる ≒ 環境のダイナミクスを捉えている ○ 人間は結果を予測しながら行動してる(ボール投げる/車を運転する) ● モデルベース強化学習でもやってる ○ 先に内部モデルを学習して、内部モデルでプランニングをする ○ PlaNet (Learning Latent Dynamics for Planning from Pixels, ICML 2019) ■ world model + cross entropy method (方策のネットワークなし) ○ SimPle (Model-Based Reinforcement Learning for Atari, CoRR 2019) ■ world model (1フレームだけ予測) + PPO ○ Visual Foresight: Model-Based Deep Reinforcement Learning for Vision-Based Robotic Control ● inductive bias(帰納バイアス)多すぎ ○ データの構造というメタ知識をモデル/学習の制約に入れる ○ segmentation mask, optical flow, 前景・背景の分割, adversarial loss

5.

モチベーション ● 深層学習は、モデルの大きさが正義だったことが多い ○ 画像分類、自然言語処理、GAN… ● inductive bias なしでどこまでできるか ● 調べること ○ モデルを大きくすると定量・定性的に改善するのか ○ 結局recurrentが大事か ○ 結局確率的な遷移を仮定することは大事か ● →すごくよくなった

6.

ベースモデル ● SVG (Stochastic Video Generation with a Learned Prior, ICML2018) ○ SSMっぽい ○ 当時のsota ○ ConvLSTMあり ○ skip connectionあり ○ (actionは捨てて実験してる)

7.

ベースモデル ● 普通のSSMは ● ELBO = 再構成誤差 + KL divergence(sの距離)

8.

ベースモデル ● SVG (Stochastic Video Generation with a Learned Prior, ICML2018) ○ zのprior(生成過程)、posterior(近似)に今までのxを全部入れる ○ β = 0.0001

9.

ベースモデル ● SVG (Stochastic Video Generation with a Learned Prior, ICML2018) ○ ○ ○ ○ 確率的なサンプリングになっている LSTMθは1レイヤー、LSTMθは2レイヤー zは64(タオル), 128次元(人、車) M, Kは後述

10.

提案手法(大きくしかた) ● モデルのキャパシティによる性能の比較 ● 単純に、 ○ LSTMのunit数をM倍(M=1~3)。デフォルト512 ○ FC層のunit数をK倍(K=1~5)。 ● パラメータ数は30万~7.5億 ● BERTが3億

11.

Ablation Study ● SVG(デフォルト) ● LSTM ○ 確率的な遷移を取り払う ● CNN ○ LSTMも取り払う ○ 直前の画像+初期状態の画像で次の画像を予測

12.

評価指標 ● FVDスコア(FVD(Frechet Video Distance)フレシェ) ○ FIDスコアがベース Frechet Inception Distance ■ 画像系GANの綺麗さの評価に使うやつ ○ 各フレームのクオリティ+時間的一貫性を評価 ○ 本物と生成物のビデオの分布の距離(正規分布を仮定) ○ FIDではinceptionモデルだったのを、 Inflated 3D Convnet(kietics600で学習)に変える ■ DeepMindのaction recongition用 データセット

13.

実験 ●

14.

実験 ● 主観評価 ○ (CNNが勝ってるところがある…)

15.

高解像度(128x128 ver)

16.

まとめ ● モデルのキャパシティを大きくすればよい。 ● リカレントは大事(CNN比) ● 確率的は大事(LSTM比) ○ (階層的な気が…)