285 Views
January 13, 25
スライド概要
Web Developer / Research on generative models and continual learning
Survey on Identity Generation IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models H. Ye, J. Zhang, S. Liu, X. Han, W. Yang [arxiv’23] AnyDoor: Zero-shot Object-level Image Customization X. Chen, L. Huang, Y. Liu, Y. Shen, D. Zhao, H. Zhao [CVPR’24]
Background — Identity Generation (Subject-driven Generation) Identity Textual Inversion (TI) [R. Gal+] 2
Background — Identity Generation (Subject-driven Generation) Identityごとにチューニングする手法 e.g. Textual Inversion, DreamBooth - 学習コストは小さいが,Identityごとのチューニングが必要 - 分布外のIdentityでも生成できる / Identityの忠実度が高い Identityごとにチューニングしない手法 (img2imgの事前学習) - 事前学習のコストは大きいが,Identityごとのチューニングが不要 - 分布外のIdentityでは生成品質が悪い 3
IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models H. Ye, J. Zhang, S. Liu, X. Han, W. Yang [arxiv’23] - Identityは1 wordでは表現しきれない (Textual Inversionでは表現しきれない) - Identityをlightweight adapterで表現する Identity 4
Preliminaries — Latent Diffusion Cross-Attentionによって条件付けする https://mohammadahmadig.github.io/presentations/presentation-01 5
Method — IP Adapter Image Encoderの出力を学習可能なモジュール (IP Adapter) で補正する 6
Method — Decoupled Cross-Attention Cross-Attentionを Image / Text Condition 向けに分離する Text-Condition Image-Condition 🔥 : Text Embedding : Image Embedding 7
Method — Scaling image condition Cross-Attentionを Image / Text Condition 向けに分離する Text-Condition Image-Condition Image Conditionの影響度をスケールできる 8
Experiments 9
Experiments 10
AnyDoor: Zero-shot Object-level Image Customization X. Chen, L. Huang, Y. Liu, Y. Shen, D. Zhao, H. Zhao [CVPR’24] Scene, Location, Target (Identity) から 画像を合成する 11
Method — Overall pipeline (上側) detailに関連する特徴を抽出する (下側) Identityに関連する特徴を抽出する 12
Method — Identity Feature Extraction 従来手法の多くはCLIPでIdentityを抽出するが,CLIPは背景情報の影響を受けやすい - Segmentor で背景を除去する - 事前学習した自己教師モデル (e.g. DINOv2) で Identity を抽出する global token - と patch token の組 projection layerを通じて 16x16 のテンソルにするにする 13
Method — Detail Feature Extraction 背景を除去した Identity を Location に配置することで,効果的に Detail を抽出できる しかし,直接配置すると生成多様性を失うため,画像の高周波成分だけを配置 は Sobel Kernel は Eroded Mask 14
Method — Data preparation Video, 3Dオブジェクト のデータセットから2フレーム切り出して使う 15
Experiment 16
Experiment 17