【DL輪読会】GAN-Supervised Dense Visual Alignment (CVPR 2022)

132 Views

July 20, 22

スライド概要

2022/7/15
Deep Learning JP
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] GAN-Supervised Dense Visual Alignment (CVPR 2022) Takeru Oba, Ukita Lab http://deeplearning.jp/ 1

2.

書誌情報 タイトル:GAN-Supervised Dense Visual Alignment 著者:William Peebles1 Jun-Yan Zhu2 Richard Zhang3 Antonio Torralba4 Alexei A. Efros1 Eli Shechtman3 1:UC Berkeley, 2:Carnegie Mellon University, 3:Adobe Research, 4:MIT CSAIL 会議:CVPR 2022 図、動画はプロジェクトページと論文から引用 (https://www.wpeebles.com/gangealing) いくつかの図は他の論文からも引用されています. 2

3.

概要 やりたいこと:Dense Visual Alignment 応用例:画像編集 3

4.

概要 やりたいこと:Dense Visual Alignment 応用例:画像編集 動画なので以下を参照してください https://www.wpeebles.com/gangealing 4

5.

概要 タスク: 教師なし学習で,画像間の対応関係を学習したい. この問題を解くために,GANとCongealingを組み合わせた方法を提案 Congealingとは: 2枚の画像間でAlignmentするのではなく,画像のデータセット全体で Alignmentを行うこと 5

6.

概要 注意: 本論文では対象物体に絞ってAlignmentを学習します. その対象物体はデータセットから自動的に学習されます. そのため,対象物体がどの画像にも写っているデータセットが必要です. 6

7.

学習の全体像 Pretrained GAN (Style GAN) Alignment Network (Spatial Transformer) 7

8.

学習の全体像 (1): 学習済みGAN を用いて画像生成 (2):画像の Alignment (4):Alignment モデルの最適化 (3):GANの潜在変数 を調整してGTを生成 8

9.

学習の全体像 (1): 学習済みGAN を用いて画像生成 (2):画像の Alignment (4):Alignment モデルの最適化 (3):GANの潜在変数 を調整してGTを生成 9

10.

Style GAN Style GAN[1] • 高解像度の画像生成が可能 • 各層ごとに𝒘をスタイルとして入 力することが特徴 • ある層の𝒘のみを変更すると,髪 の色のみを変えるなどが可能 重要 左の画像から一部の𝒘のみを変えた結果 [1] Karras, et al., "A style-based generator architecture for generative adversarial networks." CVPR. 2019. 10

11.

学習の全体像 (1): 学習済みGAN を用いて画像生成 (2):画像の Alignment (4):Alignment モデルの最適化 (3):GANの潜在変数 を調整してGTを生成 11

12.

Spatial Transformer Spatial Transformer[2] • 回転,クロップ位置などのパラメータを 予測し,画像中の重要な領域をAlignment して抽出する • 本論文ではそれらに加えて,グリッド点 のオフセットも予測することで,形が少 し異なる物体でも,同じ形状に修正する • Transformerという名前ですが,近年の Attention Modelではなく,画像を変形す るという意味です この緑の点のオ モデル フセットも追加 で学習 [2] Jaderberg , et al., "Spatial transformer networks." Advances in neural information processing systems 28 (2015). 12

13.

学習の全体像 Spatial Transformerの 学習には,画像ごと にAlignmentされたGT が必要 (1): 学習済みGAN を用いて画像生成 (2):画像の Alignment (4):Alignment モデルの最適化 (3):GANの潜在変数 を調整してGTを生成 13

14.

Style GAN(再掲) Style GAN[1] • 高解像度の画像生成が可能 • 各層ごとに𝒘をスタイルとして入 この特性を利用 力することが特徴 • ある層の𝒘のみを変更すると,髪 の色のみを変えるなどが可能 左の画像から一部の𝒘のみを変えた結果 [1] Karras, et al., "A style-based generator architecture for generative adversarial networks." CVPR. 2019. 14

15.

GT画像の生成方法 cは全体的な形状を表現する ベクトルで,これだけを変 更することで,模様などを 保持したまま形状を変更 cは全部の画像で基本固定 ただし,完全に固定すると 類似する画像が生成できな い場合があるため,バッチ ごとに修正 左の画像の潜在変数の一 部のみを変更(色に注目 してください) 15

16.

GT画像の生成方法 cは損失関数を小さくするよ うに以下の式のαを勾配に よって最適化する ഥ 𝒘:wの平均 𝒅𝒊 :𝒊番目の主成分ベクトル 左の画像の潜在変数の一 部のみを変更(色に注目 してください) 16

17.

学習の全体像 (1): 学習済みGAN を用いて画像生成 (2):画像の Alignment (4):Alignment モデルの最適化 (3):GANの潜在変数 を調整してGTを生成 17

18.

損失関数 以下の損失関数でSpatial Transformer(𝑇) を最適化 変形後画像とGT画像間の知覚的損失(VGG Loss?) グリッドのオフセットまたはフロー(𝑔)に関する制約項 𝑥 𝑦 隣接するオフセット値が近くなる制約 オフセット値を小さくする制約 18

19.

実験結果 Dense Correspondence by Joint Alignment 1. 2. 3. 4. Alignment前 回転とクロップのみ適用 グリッドのオフセットの適用 変形の可視化のために同じマ スクを全画像に描写 5. オフセットの逆変換 6. 回転とクロップを戻す 動画なので以下を参照してください https://www.wpeebles.com/gangealing 19

20.

実験結果 Easy Image Editing with GANgealing 1. 2. 3. 4. 5. 6. 7. 8. 動画なので以下を参照してください https://www.wpeebles.com/gangealing Alignment前 一部の画像のフリップ 回転とクロップのみ適用 グリッドのオフセットの適用 全画像に同じ加工をする オフセットの逆変換 回転とクロップを戻す フリップを戻す 20

21.

実験結果 Mixed Reality: Versus RAFT 1フレームごとに処理しても 時系列的に一貫した画像編集 ができている(ロバスト) 動画なので以下を参照してください https://www.wpeebles.com/gangealing 21

22.

まとめ まとめ Style GANの潜在変数の性質を活かして,Congealingされた画像を生成 することで, 教師なしのDense Visual Alignmentを向上させた.実験 では,適切に画像の対応関係が学習されていることと,画像編集の例で その有用性を示した. その他 論文中ではもちろん定量評価もしてますので,定量評価は論文を参考に してください. officialのpytorchコードもあります. https://github.com/wpeebles/gangealing 22