【拡散モデル勉強会】Adding Conditional Control toText-to-Image Diffusion Models


May 14, 24




DEEP LEARNING JP [DL Papers] Adding Conditional Control to Text-to-Image Diffusion Models [1] Itsunori Watanabe, Waseda Univerisity http://deeplearning.jp/ 1


サマリー • text-to-imageの⽣成モデルのcontrolを⾏うControlNetを開発(⼀応Stable Diffusion向 け) • finetuningの課題だったoverfittingや破滅的忘却を起こすことなく,robustな⽣成の条 件付けを可能にした ※defaultのpromptは”a high-quality, detailed, and professional image” 2


背景 • ⽣成モデルの条件付けは概して難しい • データ量の不⾜ • Stable Diffusionの学習に使われているLAION-5B等のデータセットのスケール に⽐べた,特定の条件付けのためのデータセットは100Kほどのスケール (LAIONの1/50000) • 破滅的な忘却やoverfi&ngの可能性 5


Finetuning関連の既存研究 • HyperNetwork[2] • Adapter[3] • Additive Learning[4] • LoRA • Zero-Initialized Layers[5] 7


画像⽣成のdiffusionの既存モデル • LDM (Latent Diffusion Models)[2] • Glide[6] • Disco Diffusion[7] • Stable Diffusion[8] 8


画像⽣成モデルのcontrolの既存⼿法 • MakeAScene[9] • SpaText[10] • GLIGEN[11] • Textual Inversion[12] • DreamBooth[13] 9


Image-to-Image translationの関連研究 • PaleXe[14] • PITI[15] 10


⼿法のポイント • Stable Diffusionのパラメータは全てfreeze • Stable Diffusionのブロックごとにtrainable copyと呼ばれるコ ピーを作成 • Trainable copyとfreezeされたStable Diffusionをzero convolu+on で接続 • Zero convolu+on: 0で初期化された1×1convolu0on 12


ControlNetの基本構成 • 条件 𝑐 をtrainable copyに⼊⼒してzero convolutionで元のモデルに戻す 𝑦! : ControlNetの出⼒ 𝐹: NN block 𝑥: ⼊⼒ 𝜃: lockされたNNのパラメータ 𝑍: zero convolution 𝑐: 条件 𝜃"# : 最初のzero convolutionのパラメータ 𝜃"$ : 最後のzero convolutionのパラメータ 𝜃% : trainable copyのパラメータ 13


zero convolutionによって学習初期のノイズ抑制 𝑦! : ControlNetの出⼒ 𝐹: NN block 𝑥: ⼊⼒ 𝜃: lockされたNNのパラメータ 𝑍: zero convolution 𝑐: 条件 𝜃"# : 最初のzero convolutionのパラメータ 𝜃"$ : 最後のzero convolutionのパラメータ 𝜃% : trainable copyのパラメータ 学習初期では0 に等しい 14


Stable Diffusionへの組み込み • 12のencoding blockと1つのmiddle blockをコピー • 12のskip connectionと1つのmiddle blockに conditioningの結果をzero convolutionで追加 • Stable Diffusion⾃体の最適化に⽐べて23%のVRAM と34%の計算時間で学習が可能 • Stable Diffusionでは512×512のinput画像を64×64 の潜在空間にconvetする前処理があり, conditioning部分においても同様の処理を施して conditionの⼊⼒𝑐! を得る 15


プロンプトの削除とsudden convergence phenomenon • プロンプトの削除 • 50%のプロンプトは空⽂字列に変換 • Conditioningをダイレクトに認識しやすくするため • sudden convergence phenomenon • 徐々にcondiConを学習するわけではなく,突如 confiConの認識性能が発現することを確認 (通常は 10K opCmizaCon steps以内に発現) 16


Promptingとcontrol⽅法の違いによる⽣成結果の違い • Control⽅法 • 前述のControlNet - ( a ) • ControlNet w/o zero convolution – ( b ) • trainable copyをconvolution1層に置き換えたControlNet-lite – ( c ) • Prompt • No Prompt • Insufficient Prompt: 画像内のObjectについて⾔及しない • Conflicting Prompt: Control画像の意味を改変 • Perfect Prompt: 画像内のObjectとControlの意味を完全に指定 18


Promptingとcontrol⽅法の違いによる⽣成結果の違い 19


⼈間の評価 • User study • 20のcontrolとpromptから5つのモデルで計100枚の画像を⽣成 • 12⼈のuserが100枚の画像を「質」と「(指⽰再現の)忠実性」から5段 階でランクづけ(1が最低, 5が最⾼).モデルごとにランクの平均を AHR(Average Human Ranking)として集計 • ⼤規模モデルとのControlNetの⽣成画像の分類 • SDv2-D2I(Stable Diffusion V2 Depth-to-Image)とControlNetの⽣成画像を 12⼈のuserがどれだけ正確に分類できるかを検証.平均正解率は52% で両モデルの差異はほとんどないことを確認 ※SDv2-D2Iは12Mの画像で,A100クラスターを⽤いて数千時間学習.ControlNetは200kの画像で,RTX3090Tiを ⽤いて5⽇間で学習 20


IoUを⽤いた忠実性の定量的評価 • ADE20K(semantic segmentationのデータセット)を⽤いた評価 • SoTAなsegmentationモデル(OneFormer)を使⽤して,ground truthと segmentationでcontrolした⽣成画像のsegmentation結果をIoUで⽐較 21


その他の指標による既存モデルとの⽐較 22


Appendix • データセットのサイズと⽣成 画像の関係 • 曖昧なcontrolからの意味の推定 • 同じcontrolを他のモデルに適⽤ した際の⽣成画像 23


