【DL輪読会】Generating Long Videos of Dynamic Scenes

108 Views

June 24, 22

スライド概要

2022/06/24
Deep Learning JP
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

Generating Long Videos of Dynamic Scenes 岡田 領 / Ryo Okada

2.

アウトライン 1. 書籍情報 2. 関連研究 3. 提案手法 4. 評価 5. まとめ

3.

書誌情報 • 2022/6/7 Arxiv投稿 • 長尺の動画生成で風景やオブジェクトの変化もリアルに表現. • https://www.timothybrooks.com/tech/long-videos/ • コード,データセット,学習済みモデルを公開予定とのこと

4.

生成動画

5.

生成動画

6.

関連研究

7.

関連研究 • Unconditional video generation(今回) • 暗黙的な動画生成(画像生成するStyleGANの動画版のイメージ • GANベースとTransformerベース • Conditional video prediction • 映像フレームやアクションを条件して,将来を予測する

8.

StyleGAN-V • GANベース • SOTA • StyleGAN2を動画に拡張 • 潜在変数を動画全体のコンテンツを 制御するグローバルな潜在変数と動 きの成分に分解 • CVPR 2022

9.

TATS • transformerベース • 動画の情報をトークンの連続とした 自己回帰transformer • VideoGPTを改善し,VQGANのPadding の改善+2段階のtransformer • 動画の時間経過とともに誤差が蓄積 されるため,急な変化が見られる • 時間と空間に自己回帰するので学習 コストが大きい • 2022/4 Arxiv

10.

モチベーション • 既存の動画生成では時間経過で新しい物体や描写がない.(時間受容野が小 さいのでコンテンツが偏る • 長期の一貫性を持ち,複雑な時間変化を再現できるように時間方向に強い潜 在表現を得るような手法を提案.

11.

提案手法

12.

全体像 • 2つの生成器で2段階に処理 • 低解像度生成器 • 動きやシーン構成のモデル化(64 x 64) • ノイズから128フレーム生成(1イテレーション • 超解像ネットワーク • 低解像度生成器の結果を超解像に(256 x 256) • フレーム単位で処理 • 独立で学習

13.

低解像度生成器 • 時間を重視した設計で長い時間受 容野(5kフレーム) • StyleGANベースの構造 • 8スカラー値の入力ノイズに128個 のローパスフィルタ(サイズが 1000~5000frames分)を掛け合わせ ,多様な時間周波数を持たせる.マ ッピングネットワークに入力し, 各層の潜在変数にマップ • メインの経路ではWtの時間成分を 32倍にダウンサンプリングし,定 数と連結,時間次元(ST)→空間次 元(S)の順で徐々に解像度を増や していく.

14.

低解像度生成器の学習 • 訓練データの実動画と生成器の生成動画で識別器を訓練 • 長い動画での訓練の場合識別器の過学習が問題になったため ,学習の安定化のため,データ拡張を適用

15.

超解像ネットワーク • 動画の前後4つの低解像度フレーム(計9フレ ーム)をチャネル次元にconcatし,入力し,単 一のフレームを出力(256x256) • 学習時は実画像を低解像度化したものを利用し ,推論時は低解像度生成器からの生成動画を入 力. • 識別器の前にデータ拡張を適用 • アーキテクチャはほぼStyleGAN3そのまま

16.

評価

17.

データセット • 既存データセットでは新しい物体やシーンが少ない • マウンテンバイクと乗馬の1人称動画のデータセットを作成 • 風景やオブジェクトが複雑に変化 • マウンテンバイク:1202動画, 30fps 30frame • 乗馬:66動画, 30fps 6504frame

18.

定性評価 • 提案手法は時間経過とともに風景が時間と共に変化. • StyleGAN-Vは同様のコンテンツの繰り返し(時間受容野が狭いため

19.

定性評価 • Mechanical Turkでどちらがリアルかアンケート • 80%以上が提案手法

20.

色の変化の分析 • RGBカラーヒストグラムの交差をフレームプロット(コンテンツの推移の確認) • 実動画と提案手法は同じカーブを描いている

21.

FVD • FVDによる実映像と生成された映像の分布の類似性の評価 • Biking, HorsebackでStyleGAN-Vを上回っているが,ACID, Skyでは下回る結果(左表) • FVDは長期的なリアルさを見ず,短期的な細かい動きを評価しているため,StyleGAN-V の数値が大きくなったと主張(実際ユーザ評価と食い違う)

22.

Ablation • 長い動画での訓練が必要 • ローパスフィルタが大きく影響

23.

まとめ • 広い時間スケールの潜在表現やアーキテクチャの採用によって,従来の動画 生成に比べて,長尺の複雑で別のオブジェクトが登場するような動画生成を 実現 • 結構早い速度で動画系の性能が向上してきている印象 • 動画生成における今後の課題 • 映像上一度いなくなって,再び登場するような物体を一貫性のあるものと して表現するにはどのような設計が必要か? • 評価の難しさ(FVDでは不十分)など