【DL輪読会】Generating Long Videos of Dynamic Scenes

142 Views

June 24, 22

#deep learning #Long Video Generation #Ryo Okada #StyleGAN #Transformer #Super Resolution

スライド概要

2022/06/24
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.2K

各ページのテキスト

Generating Long Videos of Dynamic Scenes 岡田領 / Ryo Okada

アウトライン 1. 書籍情報 2. 関連研究 3. 提案手法 4. 評価 5. まとめ

書誌情報 • 2022/6/7 Arxiv投稿 • 長尺の動画生成で風景やオブジェクトの変化もリアルに表現． • https://www.timothybrooks.com/tech/long-videos/ • コード，データセット，学習済みモデルを公開予定とのこと

https://www.timothybrooks.com/tech/long-videos/

生成動画

関連研究

関連研究 • Unconditional video generation（今回） • 暗黙的な動画生成（画像生成するStyleGANの動画版のイメージ • GANベースとTransformerベース • Conditional video prediction • 映像フレームやアクションを条件して，将来を予測する

StyleGAN-V • GANベース • SOTA • StyleGAN2を動画に拡張 • 潜在変数を動画全体のコンテンツを制御するグローバルな潜在変数と動きの成分に分解 • CVPR 2022

TATS • transformerベース • 動画の情報をトークンの連続とした自己回帰transformer • VideoGPTを改善し，VQGANのPadding の改善＋２段階のtransformer • 動画の時間経過とともに誤差が蓄積されるため，急な変化が見られる • 時間と空間に自己回帰するので学習コストが大きい • 2022/4 Arxiv

10.

モチベーション • 既存の動画生成では時間経過で新しい物体や描写がない．（時間受容野が小さいのでコンテンツが偏る • 長期の一貫性を持ち，複雑な時間変化を再現できるように時間方向に強い潜在表現を得るような手法を提案．

11.

提案手法

12.

全体像 • ２つの生成器で２段階に処理 • 低解像度生成器 • 動きやシーン構成のモデル化（64 x 64） • ノイズから128フレーム生成（１イテレーション • 超解像ネットワーク • 低解像度生成器の結果を超解像に（256 x 256） • フレーム単位で処理 • 独立で学習

13.

低解像度生成器 • 時間を重視した設計で長い時間受容野（5kフレーム） • StyleGANベースの構造 • 8スカラー値の入力ノイズに128個のローパスフィルタ（サイズが 1000~5000frames分）を掛け合わせ，多様な時間周波数を持たせる.マッピングネットワークに入力し，各層の潜在変数にマップ • メインの経路ではWtの時間成分を 32倍にダウンサンプリングし，定数と連結，時間次元（ST）→空間次元（S）の順で徐々に解像度を増やしていく．

14.

低解像度生成器の学習 • 訓練データの実動画と生成器の生成動画で識別器を訓練 • 長い動画での訓練の場合識別器の過学習が問題になったため，学習の安定化のため，データ拡張を適用

15.

超解像ネットワーク • 動画の前後４つの低解像度フレーム（計９フレーム）をチャネル次元にconcatし，入力し，単一のフレームを出力（256x256） • 学習時は実画像を低解像度化したものを利用し，推論時は低解像度生成器からの生成動画を入力． • 識別器の前にデータ拡張を適用 • アーキテクチャはほぼStyleGAN3そのまま

16.

評価

17.

データセット • 既存データセットでは新しい物体やシーンが少ない • マウンテンバイクと乗馬の１人称動画のデータセットを作成 • 風景やオブジェクトが複雑に変化 • マウンテンバイク：1202動画, 30fps 30frame • 乗馬：66動画, 30fps 6504frame

18.

定性評価 • 提案手法は時間経過とともに風景が時間と共に変化． • StyleGAN-Vは同様のコンテンツの繰り返し（時間受容野が狭いため

19.

定性評価 • Mechanical Turkでどちらがリアルかアンケート • 80%以上が提案手法

20.

色の変化の分析 • RGBカラーヒストグラムの交差をフレームプロット（コンテンツの推移の確認） • 実動画と提案手法は同じカーブを描いている

21.

FVD • FVDによる実映像と生成された映像の分布の類似性の評価 • Biking, HorsebackでStyleGAN-Vを上回っているが，ACID, Skyでは下回る結果（左表） • FVDは長期的なリアルさを見ず，短期的な細かい動きを評価しているため，StyleGAN-V の数値が大きくなったと主張（実際ユーザ評価と食い違う）

22.

Ablation • 長い動画での訓練が必要 • ローパスフィルタが大きく影響

23.

まとめ • 広い時間スケールの潜在表現やアーキテクチャの採用によって，従来の動画生成に比べて，長尺の複雑で別のオブジェクトが登場するような動画生成を実現 • 結構早い速度で動画系の性能が向上してきている印象 • 動画生成における今後の課題 • 映像上一度いなくなって，再び登場するような物体を一貫性のあるものとして表現するにはどのような設計が必要か？ • 評価の難しさ(FVDでは不十分)など