203 Views
July 05, 23
スライド概要
2023/6/30
Deep Learning JP
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold Yuki Sato, University of Tsukuba M2 http://deeplearning.jp/ 1
書誌情報 Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold Xingang Pan1,2, Ayush Tewari3, Thomas Leimkühler1, Lingjie Liu1,4, Abhimitra Meka5, Christian Theobalt1,2 1Max Planck Instutute 2Saarbrücken Research Center 3MIT 4University of Pennsylvania 5Google AR/VR • 投稿先: SIGGRAPH 2023 • プロジェクトページ: https://vcai.mpi-inf.mpg.de/projects/DragGAN/ • 選定理由 ➢ GANの生成画像の潜在変数を直接最適化することで、追加のネットワークの学習を必要とせず、 短時間で実行可能である ➢ インタラクティブな操作による高品質な画像編集を可能とした 2
概要 • GANの生成画像に対して、画像内で任意のハンドル点をターゲット点に近づくよ うに逐次的に処理する画像編集手法を提案 • 追加のネットワークを学習するのではなく、StyleGANの特徴マップを直接最適化 することで高速な画像生成が可能 • 複数の点を同時に変形させつつ、ハンドル点と関連のない画像領域を保存可能 3
背景 目的:任意の生成画像のポーズ・形状・表情・レイアウトの正確な制御 既存手法: • 3次元表現を用いた手法やアノテーションデータを用いた教師あり学習 → 学習データに依存し、編集可能なオブジェクトが限定される • 自然言語による条件付け → 生成画像の精度や、位置・形状・レイアウトなど異なる条件を独立して制御 することが難しい 対話的に画像内の複数のハンドル点を操作 ・GANの特徴マップを直接最適化するため追加の学習が必要なく、オブジェクト の種類に限定されない ・ポイントベースの操作による正確な制御が可能 4
StyleGAN StyleGAN[1] • Mapping Networkを用いて特徴量のもつれ をなくした中間潜在変数を利用し、各解 像度で正規化を行うことで、細かな特徴 を制御可能な高解像度画像生成が可能 StyleGAN2[2] • AdaINを標準偏差を用いた正規化に置き 換え、Generator, Discriminatorの構造を改 良することで、生成画像の品質向上を達 成 [1]より引用 1. 2. Karras, Tero, Samuli Laine, and Timo Aila. “A style-based generator architecture for generative adversarial networks." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019. Karras, Tero, et al. "Analyzing and improving the image quality of stylegan." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020. 5
GANの制御性 潜在変数ベクトルを編集 • アノテーションデータや3Dモデルを用いた教師あり学習を利用 • 物体位置の移動精度が低いなど正確な制御が難しい ポイントベースの手法 • 画像の特徴を独立に、正確に操作可能 • GANWarping[3]:ポイントベースの編集手法だが、3次元姿勢の制御など困難なタ スクが存在 • UserControllableLT[4]:GANの潜在変数をユーザの入力を用いて変換して入力するこ とで画像を編集するが、画像内で1方向へのみドラッグ可能であり複数点を異な る方向に同時に編集できない 3. Wang, Sheng-Yu, David Bau, and Jun-Yan Zhu. "Rewriting geometric rules of a gan." ACM Transactions on Graphics (TOG) 41.4 (2022): 1-16. 4. Endo, Yuki. "User-Controllable Latent Transformer for StyleGAN Image Layout Editing." arXiv preprint arXiv:2208.12408 (2022). 6
Point tracking 目的:連続した画像間における対応する点の動きを推定 • 連続したフレーム間のオプティカルフロー推定 RAFT[5] • 画素単位で特徴量を抽出し相関を算出し、RNNによる反復処理で推定を行う PIPs[6] • 複数フレームにまたがる任意のピクセルを追跡してフローを推論可能 両手法ともフロー予測のためのモデルを別途学習させる必要がある 5. Teed, Zachary, and Jia Deng. "Raft: Recurrent all-pairs field transforms for optical flow." Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part II 16. Springer International Publishing, 2020. 6. Harley, Adam W., Zhaoyuan Fang, and Katerina Fragkiadaki. "Particle Video Revisited: Tracking Through Occlusions Using Point Trajectories." Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part XXII. Cham: Springer Nature Switzerland, 2022. 7
DragGAN: 概要 目的: 𝑛個のハンドル点𝑝𝑖 を対応するターゲット点𝑡𝑖 に到達するように中間潜在変 数wを最適化する →追加のネットワークの学習を必要としないポイントベースの編集手法 入力: • ハンドル点 𝑝𝑖 = 𝑥𝑝,𝑖 , 𝑦𝑝,𝑖 | 𝑖 = 1,2, … 𝑛 • ターゲット点 𝑡𝑖 = 𝑥𝑡,𝑖 , 𝑦𝑡,𝑖 | 𝑖 = 1,2, … 𝑛 • バイナリマスク(任意) M 出力: • 変換後の画像 8
DragGAN : 概要 StyleGAN2 • 特徴マップ(F)にはStyleGAN2の6ブロック目の出力を使用 – 実験より、解像度と識別性(特徴マップを用いたL1損失によるハンドル点の追跡精度)のトレー ドオフが最も良いため – 最適化の対象である中間潜在変数wも6ブロック目の入力までとした • Fを生成画像と同じ解像度にバイリニア補完 反復処理 1. 2. motion supervision: 𝑝𝑖 を𝑡𝑖 の方向へ近づけるようにwを更新し特徴マップF′を獲得 point tracking: F′を用いて𝑝𝑖 を更新 9
DragGAN: motion supervision 目的:現在のハンドル点𝑝𝑖 をターゲット点𝑡𝑖 に近づけるようにwを更新する • 以下の損失関数ℒでwを更新する。 𝑛 ℒ = F 𝑞𝑖 − F(𝑞𝑖 + 𝑑𝑖 ) 1 + λ (F − F0 ) ∙ (1 − M) 1 𝑖=0 𝑞𝑖 ∈Ω1 (𝑝𝑖 ,𝑟1) • 𝑝𝑖 を中心とした半径𝑟1の円内の座標𝑞𝑖 ∈ Ω1 𝑝𝑖 , 𝑟1 全てを対象とする • 𝑞𝑖 と、𝑞𝑖 から𝑑𝑖 = 𝑡𝑖 −𝑝𝑖 だけ移動した𝑞𝑖 𝑡𝑖 −𝑝𝑖 2 + 𝑑𝑖 に位置する特徴ベクトルのL1損失を 最小化 • 編集領域がマスクMで与えられた場合、現在の特徴マップFと最初の特徴マップF0 でマスク領域以外が一致するような再構成誤差を加える 10
DragGAN: point tracking 目的:特徴マップF′内で対応するハンドル点𝑝𝑖 を探索し、更新する • 以下の更新式を適用 𝑝𝑖 ≔ argmin 𝑞𝑖 ∈Ω2 (𝑝𝑖 ,𝑟2) • Ω2 𝑝𝑖 , 𝑟2 = る 𝑥, 𝑦 𝐹 ′ 𝑞𝑖 − 𝐹0 𝑝𝑖 1 𝑥 − 𝑥𝑝,𝑖 < 𝑟2, 𝑦 − 𝑦𝑝,𝑖 < 𝑟2 に属する座標𝑞𝑖 全てを対象とす 11
実験設定 データセット • FFHQ(512), AFHQCat(512), SHHQ(512), LSUN Car(512), LSUN Cat(512), Landscapes HQ(256), microscope(512), self-distilled dataset including Lion(512), dog(1024), and Elephant(512) ハイパーパラメータ • λ = 20, 𝑟1 = 3, 𝑟2 = 12 • 全ての𝑝𝑖 から𝑡𝑖 までの距離が𝑑ピクセル以下でプロセスを終了 𝑑=1 if 𝑛 ≤ 5 ቊ 𝑑 = 2 otherwise 12
実験内容 実験の種類 • 生成画像に対する編集 • 実画像を入力とし、GAN Inversionを用いて潜在変数を獲得して編集 • 顔画像を2枚生成しそれぞれのランドマークを検出、入力画像のランドマークを 編集しターゲットのランドマークと一致するように最大300回反復して編集 • 2枚の画像A,Bを生成しAからBへのフローを算出し、フロー内のランダムな点をハ ンドル点としてAをBと一致するように最大100回反復して編集 (Ablation study) StyleGAN2の使用するブロックを変更 / 𝑟1を変更 評価方法 • 生成精度:FID • 再構成誤差:MSE, LPIPS, MD(ターゲット点と最終更新後のハンドル点の平均距離) • 処理時間 13
比較手法 対話的な点ベースの編集 • UserControllableLTをベースラインとした • マスクを用いた実験を行う際、 UserControllableLTはマスク入力を受け付けないた め、16 × 16のグリッドでマスクに含まれない点を固定点とした point tracking手法の比較 • DragGANのpoint tracking手法を、従来手法であるRAFTとPIPsに置き換えて精度を比 較した 14
実験結果: 生成画像に対する編集 • 複数のデータセットにおいてDragGANの生成画像はより自然で優れていた 15
実験結果: point trackingの比較 • RAFTやPIPsでは、操作中にハンドル点が異なる点となり、正しく移動できなかっ た • point trackingを行わない場合、ハンドル点は背景に着いてしまい編集されなかっ た 16
実験結果: 画像を入力とした編集 • PIT[7]を用いて実画像から潜在変数を獲得して編集した結果、表情や姿勢、形状を 高い精度で編集できていた 7. Roich, Daniel, et al. "Pivotal tuning for latent-based editing of real images." ACM Transactions on Graphics (TOG) 42.1 (2022): 1-13. 17
実験結果: ハンドル点のトラッキング精度 • 実験は1000回行い平均を算 出した • DragGANではターゲットに合 わせて口を開け、顎の形状 がターゲット点と近かった • DragGANは高精度なトラッキ ングにより、従来手法と比 較して高い精度を示した • 実行時間については、 UserControllableLTが最も高速 であった ハンドル点が1点の場合の結果 ハンドル点の数ごとのMD 18
実験結果: 再構成の精度 • 実験では、潜在変数𝑤1 から得られた画像と、 𝑤1 にランダムな摂動を加えた 𝑤2 から得られる画像をペアとしてフローを計算した • 実験を1000回行い平均を算出した • 再構成タスクにおいて、DragGANは既存手法を上回る精度を示した • point trackingについてもDragGANで提案された手法が最も良い精度を示した 19
実験結果: Ablation study • StyleGANの6ブロック後の特徴マップが最も性能が良かった • 𝑟1の変化に対して敏感ではないが𝑟1 = 3が若干精度が高かった 20
Discussion マスクの有効性 • マスクを加えることでマスク領域外を保 持して編集が可能である 分布外の表現 • 口の内部などデータ分布に含まれない画 像を生成可能であるが学習データに依存 すると考えられる Limitation • データ分布に沿わないデータを生成しよ うとするとアーティファクトが現れた • テクスチャがない点をハンドル点とする とトラッキングが正常に動作しない 21
まとめ • 追加のネットワークやデータを使わず、ユーザの入力に従って対話的に画像を編 集可能 • ポイントベースの編集を3次元生成モデルに拡張する予定 22
DragDiffusion[8] 概要: 大規模拡散モデルを用いた広いドメインに対応する対話的編集モデル DragGANの手法をDiffusion Modelの特定の時刻のデータに対して適用 (A)学習済みモデルをLoRA[9]を用いてfine-tuneし、入力画像を再構成できるパラメータを獲得 (B) DDIMを用いて拡散過程を計算し、逆拡散過程の特定の時刻𝑡でノイズデータを編集する 1. 2. 時刻𝑡のノイズデータ𝑧𝑡 を𝑧𝑡 0 とし、 𝑧𝑡 𝑘 にDragGANで提案されたmotion supervisionを適用 した𝑧ෝ𝑡 𝑘 を用いて損失を計算し𝑧𝑡 𝑘+1 を得る 更新した𝑧𝑡 𝑘+1 と𝑧𝑡 0 を用いてDragGANで提案されたpoint trackingを行い、ハンドル点を更 新する [8]より引用 8. Yujun, Shi, et al. “DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing”. arXiv preprint arXiv:2306.14435 (2023). 9. Hu, Edward J., et al. "Lora: Low-rank adaptation of large language models." arXiv preprint arXiv:2106.09685 (2021). 23
DragDiffusion 実験設定 • Diffusion Model: Stable Diffusion 1.5[10], LoRA: 200 step, DDIM: 50 step • DDIMの40step目を編集 実験結果 • 定性的には自然に編集できている 気になる点 • LoRAなしでデータセットに沿った画像を編集した 結果 • 実行時間 • DragGANのlimitationで述べられていた点に関する 実験結果 10. Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022. 24
感想 • GANを用いることで反復処理の実行時間を短縮しており、アプリケーション等へ の応用が期待できる – テキストを用いた条件付けと比較して明確な編集が可能であり、意図した画像を生成可能 – DragDiffusionではLoRAの処理が含まれるためDragGANと比較して低速であると考えられる • 3次元生成モデルが持つ3次元表現へ拡張することで編集の幅が広がる • Latent DiffusionのDecoderに対しても同様のことが成立するのか気になる – Diffusion Modelの高い表現能力とDragGANの高速な編集能力を両立できるか • StyleGAN-XLのような広いドメインを扱うモデルに対しても同様のことが成立する のか気になる – DragDiffusionではLoRAを用いたfine-tuneこの点をある程度考慮できていると考えられる • 編集後の生成画像の品質という点ではDiffusion Modelを用いる手法が勝ると考え られる – Diffusion Modelのノイズデータと生成画像は同じ解像度であるためDragGANと比較して編集位 置を明確化できている 25