【DL輪読会】GAN-Supervised Dense Visual Alignment (CVPR 2022)

157 Views

July 20, 22

#GAN #Deep Learning #Visual Alignment #Congealing #Image Processing

スライド概要

2022/7/15
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] GAN-Supervised Dense Visual Alignment (CVPR 2022) Takeru Oba, Ukita Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル：GAN-Supervised Dense Visual Alignment 著者：William Peebles1 Jun-Yan Zhu2 Richard Zhang3 Antonio Torralba4 Alexei A. Efros1 Eli Shechtman3 1:UC Berkeley, 2:Carnegie Mellon University, 3:Adobe Research, 4:MIT CSAIL 会議：CVPR 2022 図、動画はプロジェクトページと論文から引用（https://www.wpeebles.com/gangealing) いくつかの図は他の論文からも引用されています． 2

https://www.wpeebles.com/gangealing

概要やりたいこと：Dense Visual Alignment 応用例：画像編集 3

概要やりたいこと：Dense Visual Alignment 応用例：画像編集動画なので以下を参照してください https://www.wpeebles.com/gangealing 4

https://www.wpeebles.com/gangealing

概要タスク：教師なし学習で，画像間の対応関係を学習したい．この問題を解くために，GANとCongealingを組み合わせた方法を提案 Congealingとは： 2枚の画像間でAlignmentするのではなく，画像のデータセット全体で Alignmentを行うこと 5

概要注意：本論文では対象物体に絞ってAlignmentを学習します．その対象物体はデータセットから自動的に学習されます．そのため，対象物体がどの画像にも写っているデータセットが必要です． 6

学習の全体像 Pretrained GAN (Style GAN) Alignment Network (Spatial Transformer) 7

学習の全体像 (1): 学習済みGAN を用いて画像生成 (2):画像の Alignment (4):Alignment モデルの最適化 (3):GANの潜在変数を調整してGTを生成 8

学習の全体像 (1): 学習済みGAN を用いて画像生成 (2):画像の Alignment (4):Alignment モデルの最適化 (3):GANの潜在変数を調整してGTを生成 9

10.

Style GAN Style GAN[1] • 高解像度の画像生成が可能 • 各層ごとに𝒘をスタイルとして入力することが特徴 • ある層の𝒘のみを変更すると，髪の色のみを変えるなどが可能重要左の画像から一部の𝒘のみを変えた結果 [1] Karras, et al., "A style-based generator architecture for generative adversarial networks." CVPR. 2019. 10

11.

学習の全体像 (1): 学習済みGAN を用いて画像生成 (2):画像の Alignment (4):Alignment モデルの最適化 (3):GANの潜在変数を調整してGTを生成 11

12.

Spatial Transformer Spatial Transformer[2] • 回転，クロップ位置などのパラメータを予測し，画像中の重要な領域をAlignment して抽出する • 本論文ではそれらに加えて，グリッド点のオフセットも予測することで，形が少し異なる物体でも，同じ形状に修正する • Transformerという名前ですが，近年の Attention Modelではなく，画像を変形するという意味ですこの緑の点のオモデルフセットも追加で学習 [2] Jaderberg , et al., "Spatial transformer networks." Advances in neural information processing systems 28 (2015). 12

13.

学習の全体像 Spatial Transformerの学習には，画像ごとにAlignmentされたGT が必要 (1): 学習済みGAN を用いて画像生成 (2):画像の Alignment (4):Alignment モデルの最適化 (3):GANの潜在変数を調整してGTを生成 13

14.

Style GAN（再掲） Style GAN[1] • 高解像度の画像生成が可能 • 各層ごとに𝒘をスタイルとして入この特性を利用力することが特徴 • ある層の𝒘のみを変更すると，髪の色のみを変えるなどが可能左の画像から一部の𝒘のみを変えた結果 [1] Karras, et al., "A style-based generator architecture for generative adversarial networks." CVPR. 2019. 14

15.

GT画像の生成方法 cは全体的な形状を表現するベクトルで，これだけを変更することで，模様などを保持したまま形状を変更 cは全部の画像で基本固定ただし，完全に固定すると類似する画像が生成できない場合があるため，バッチごとに修正左の画像の潜在変数の一部のみを変更(色に注目してください） 15

16.

GT画像の生成方法 cは損失関数を小さくするように以下の式のαを勾配によって最適化する ഥ 𝒘：wの平均 𝒅𝒊 ：𝒊番目の主成分ベクトル左の画像の潜在変数の一部のみを変更(色に注目してください） 16

17.

学習の全体像 (1): 学習済みGAN を用いて画像生成 (2):画像の Alignment (4):Alignment モデルの最適化 (3):GANの潜在変数を調整してGTを生成 17

18.

損失関数以下の損失関数でSpatial Transformer(𝑇) を最適化変形後画像とGT画像間の知覚的損失（VGG Loss?）グリッドのオフセットまたはフロー(𝑔)に関する制約項 𝑥 𝑦 隣接するオフセット値が近くなる制約オフセット値を小さくする制約 18

19.

実験結果 Dense Correspondence by Joint Alignment 1. 2. 3. 4. Alignment前回転とクロップのみ適用グリッドのオフセットの適用変形の可視化のために同じマスクを全画像に描写 5. オフセットの逆変換 6. 回転とクロップを戻す動画なので以下を参照してください https://www.wpeebles.com/gangealing 19

https://www.wpeebles.com/gangealing

20.

実験結果 Easy Image Editing with GANgealing 1. 2. 3. 4. 5. 6. 7. 8. 動画なので以下を参照してください https://www.wpeebles.com/gangealing Alignment前一部の画像のフリップ回転とクロップのみ適用グリッドのオフセットの適用全画像に同じ加工をするオフセットの逆変換回転とクロップを戻すフリップを戻す 20

https://www.wpeebles.com/gangealing

21.

実験結果 Mixed Reality: Versus RAFT 1フレームごとに処理しても時系列的に一貫した画像編集ができている（ロバスト）動画なので以下を参照してください https://www.wpeebles.com/gangealing 21

https://www.wpeebles.com/gangealing

22.

まとめまとめ Style GANの潜在変数の性質を活かして，Congealingされた画像を生成することで，教師なしのDense Visual Alignmentを向上させた．実験では，適切に画像の対応関係が学習されていることと，画像編集の例でその有用性を示した．その他論文中ではもちろん定量評価もしてますので，定量評価は論文を参考にしてください． officialのpytorchコードもあります． https://github.com/wpeebles/gangealing 22

https://github.com/wpeebles/gangealing