>100 Views
December 22, 21
スライド概要
2021/12/17
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Omnimatte: Associating Objects and Their Effects in Video (CVPR 2021 Oral) Takeru Oba, Ukita Lab http://deeplearning.jp/ 1
書誌情報 タイトル:Omnimatte: Associating Objects and Their Effects in Video 著者:Erika Lu 1, 2 Forrester Cole 1 Tali Dekel 1, 3 Andrew Zisserman William T. Freeman 1 Michael Rubinstein 1 2 1: Google Research, 2: VGG, University of Oxford, 3: Weizmann Institute of Science 会議:CVPR 2021 関連研究:Layered Neural Rendering for Retiming People in Video (同じ著者) 図、動画はプロジェクトページと論文から引用 (https://omnimatte.github.io/#paper) 2
概要 モチベ:物体がシーンに与える影響を特定したい 応用:Inpainting, Color pop, Stroboscopy 3
概要 影だけでなく、様々な種類の影響を予測 例:車の出す煙 例:水の波紋 4
概要 カメラの移動にも複数物体にも対応 例:カメラの移動 例:複数物体(人とサッカーボール) 5
概要 タスク: 動画と対象物体の大まかなマスクを入力としてOmnimatteと背景を予測 これを自己教師あり学習で行う Omnimatteとは: 対象物体とその物体が影響した部分のマスク(α)とカラー(RGB) 入力 出力 6
ネットワークの全体像 潜在変数は固定 背景予測以外では 該当する領域を クロップ OmniMatteモデルは動画ごとに学習 U-Net 物体ごと に予測 IDとマスク部分のフロー、潜在変数をモデルに入力 (カラー画像を入力しない) Omnimatteとフローを予測 7
損失関数 OmniMatteモデルを5つの損失関数により学習 再構成誤差:入力画像と出力画像が一致を一致させる 入力画像 出力画像 αマップへの制約1:一つのレイヤーのマスクをできるだけ小さくする 予測αマップ 滑らかに制約をかけるための項 αマップへの制約2:αマップが入力マスクと一致する制約(学習の序盤のみ) 𝑑𝑡𝑖 で入力マスクのエッジ部分では 損失をゼロにする 8
損失関数 OmniMatteモデルを5つの損失関数により学習 フロー再構成誤差:GTフロー画像と出力フロー画像を一致させる GTフロー画像 出力フロー画像 αマップとフローの時間的一貫性:𝑡と𝑡+1のαマップの変異がフローと一致 𝑡フレームの予測αマップ 𝑡 + 1フレームのαマップを フローに基づいて移動 9
なぜこれで影響の予測ができる? U-Net 物体ごと に予測 背景の潜在変数はすべてのフレームで固定なため、変化している部分を表現できない。 そのため、変化している部分は背景以外のレイヤーで表現されないと画像の再構成ができない。 結果として、各レイヤーは物体とそれに対応する影響を予測するようになる。 10
実験結果(成功例) 11
実験結果(失敗例) 海など背景が動く場合には、物体の影響と勘違いする 背景が固定でも、カメラの位置推定の精度が悪いと失敗する 12
実験結果(失敗例) 鏡に映った人が間違った人の影響だと予測している 13
課題とまとめ 課題 • カメラ位置の推定が難しい場合には背景の変異が物体の影響として認識されてし まう(論文に記載) • ネットワークの初期で結果が大きく変わる場合がある(論文に記載) • 角度によって見え方が変わる場合でも難しい(想像) • 海や川など背景が動く場合でも物体の影響と分離できない(実験結果より) まとめ 動画とその中の動的物体のマスクから、その物体が与えた影響(影、煙、 波紋など)をomnimatteとして予測する新しい問題を、アノテーション なしに解く方法を提案した。 14