【論文サーベイ】Survey on Identity Generation

285 Views

January 13, 25

スライド概要

profile-image

Web Developer / Research on generative models and continual learning

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

Survey on Identity Generation IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models H. Ye, J. Zhang, S. Liu, X. Han, W. Yang [arxiv’23] AnyDoor: Zero-shot Object-level Image Customization X. Chen, L. Huang, Y. Liu, Y. Shen, D. Zhao, H. Zhao [CVPR’24]

2.

Background — Identity Generation (Subject-driven Generation) Identity Textual Inversion (TI) [R. Gal+] 2

3.

Background — Identity Generation (Subject-driven Generation) Identityごとにチューニングする手法 e.g. Textual Inversion, DreamBooth - 学習コストは小さいが,Identityごとのチューニングが必要 - 分布外のIdentityでも生成できる / Identityの忠実度が高い Identityごとにチューニングしない手法 (img2imgの事前学習) - 事前学習のコストは大きいが,Identityごとのチューニングが不要 - 分布外のIdentityでは生成品質が悪い 3

4.

IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models H. Ye, J. Zhang, S. Liu, X. Han, W. Yang [arxiv’23] - Identityは1 wordでは表現しきれない (Textual Inversionでは表現しきれない) - Identityをlightweight adapterで表現する Identity 4

5.

Preliminaries — Latent Diffusion Cross-Attentionによって条件付けする https://mohammadahmadig.github.io/presentations/presentation-01 5

6.

Method — IP Adapter Image Encoderの出力を学習可能なモジュール (IP Adapter) で補正する 6

7.

Method — Decoupled Cross-Attention Cross-Attentionを Image / Text Condition 向けに分離する Text-Condition Image-Condition 🔥 : Text Embedding : Image Embedding 7

8.

Method — Scaling image condition Cross-Attentionを Image / Text Condition 向けに分離する Text-Condition Image-Condition Image Conditionの影響度をスケールできる 8

9.

Experiments 9

10.

Experiments 10

11.

AnyDoor: Zero-shot Object-level Image Customization X. Chen, L. Huang, Y. Liu, Y. Shen, D. Zhao, H. Zhao [CVPR’24] Scene, Location, Target (Identity) から 画像を合成する 11

12.

Method — Overall pipeline (上側) detailに関連する特徴を抽出する (下側) Identityに関連する特徴を抽出する 12

13.

Method — Identity Feature Extraction 従来手法の多くはCLIPでIdentityを抽出するが,CLIPは背景情報の影響を受けやすい - Segmentor で背景を除去する - 事前学習した自己教師モデル (e.g. DINOv2) で Identity を抽出する global token - と patch token の組 projection layerを通じて 16x16 のテンソルにするにする 13

14.

Method — Detail Feature Extraction 背景を除去した Identity を Location に配置することで,効果的に Detail を抽出できる しかし,直接配置すると生成多様性を失うため,画像の高周波成分だけを配置 は Sobel Kernel は Eroded Mask 14

15.

Method — Data preparation Video, 3Dオブジェクト のデータセットから2フレーム切り出して使う 15

16.

Experiment 16

17.

Experiment 17