【論文サーベイ】Survey on Identity Generation

546 Views

January 13, 25

#テキストから画像生成 #拡散モデル #アイデンティティ生成 #IP-Adapter #AnyDoor

スライド概要

tf63

@8590143908

スライド一覧

Web Developer / Research on generative models and continual learning

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【論文紹介】Classifier-Free Diffusion Guidance

tf63 12.5K

【論文紹介】Instant Neural Graphics Primitives with a Multiresolution Hash Encoding

tf63 7.8K

【論文サーベイ】Data Augmentation With Diffusion Models

tf63 7.7K

MLやってる人向けに最低限理解してほしいDocker勉強会

tf63 6K

【論文サーベイ】Score-Based Generative Model

tf63 5.2K

【論文サーベイ】Stochastic Differential Equations and Diffusion Models

tf63 4.5K

各ページのテキスト

Survey on Identity Generation IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models H. Ye, J. Zhang, S. Liu, X. Han, W. Yang [arxiv’23] AnyDoor: Zero-shot Object-level Image Customization X. Chen, L. Huang, Y. Liu, Y. Shen, D. Zhao, H. Zhao [CVPR’24]

Background — Identity Generation (Subject-driven Generation) Identity Textual Inversion (TI) [R. Gal+] 2

Background — Identity Generation (Subject-driven Generation) Identityごとにチューニングする手法 e.g. Textual Inversion, DreamBooth - 学習コストは小さいが，Identityごとのチューニングが必要 - 分布外のIdentityでも生成できる / Identityの忠実度が高い Identityごとにチューニングしない手法 (img2imgの事前学習) - 事前学習のコストは大きいが，Identityごとのチューニングが不要 - 分布外のIdentityでは生成品質が悪い 3

IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models H. Ye, J. Zhang, S. Liu, X. Han, W. Yang [arxiv’23] - Identityは1 wordでは表現しきれない (Textual Inversionでは表現しきれない) - Identityをlightweight adapterで表現する Identity 4

https://arxiv.org/pdf/2308.06721

Preliminaries — Latent Diffusion Cross-Attentionによって条件付けする https://mohammadahmadig.github.io/presentations/presentation-01 5

https://mohammadahmadig.github.io/presentations/presentation-01

Method — IP Adapter Image Encoderの出力を学習可能なモジュール (IP Adapter) で補正する 6

Method — Decoupled Cross-Attention Cross-Attentionを Image / Text Condition 向けに分離する Text-Condition Image-Condition 🔥 : Text Embedding : Image Embedding 7

Method — Scaling image condition Cross-Attentionを Image / Text Condition 向けに分離する Text-Condition Image-Condition Image Conditionの影響度をスケールできる 8

Experiments 9

10.

Experiments 10

11.

AnyDoor: Zero-shot Object-level Image Customization X. Chen, L. Huang, Y. Liu, Y. Shen, D. Zhao, H. Zhao [CVPR’24] Scene, Location, Target (Identity) から画像を合成する 11

https://openaccess.thecvf.com/content/CVPR2024/papers/Chen_AnyDoor_Zero-shot_Object-level_Image_Customization_CVPR_2024_paper.pdf

12.

Method — Overall pipeline (上側) detailに関連する特徴を抽出する (下側) Identityに関連する特徴を抽出する 12

13.

Method — Identity Feature Extraction 従来手法の多くはCLIPでIdentityを抽出するが，CLIPは背景情報の影響を受けやすい - Segmentor で背景を除去する - 事前学習した自己教師モデル (e.g. DINOv2) で Identity を抽出する global token - と patch token の組 projection layerを通じて 16x16 のテンソルにするにする 13

14.

Method — Detail Feature Extraction 背景を除去した Identity を Location に配置することで，効果的に Detail を抽出できるしかし，直接配置すると生成多様性を失うため，画像の高周波成分だけを配置は Sobel Kernel は Eroded Mask 14

15.

Method — Data preparation Video, 3Dオブジェクトのデータセットから2フレーム切り出して使う 15

16.

Experiment 16

17.

Experiment 17