【DL輪読会】Classifier-Free Guidance is a Predictor-Corrector

1.7K Views

September 26, 24

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

“Classifier-Free Guidance is a Predictor-Corrector” Daiki Miyake, Matsuo Lab, M1 1

2.

書誌情報 • タイトル Classifier-Free Guidance is a Predictor-Corrector • 著者 Arwen Bradley, Preetum Nakkiran (Apple) • リンク – arXiv https://www.arxiv.org/abs/2408.09000 – プロジェクトページ https://machinelearning.apple.com/research/predictor-corrector 2

3.

概要 • Classifier-free guidance (CFG)がどのような分布を生成するのかが未 解明 • 新たにPredictor-Corrector guidance (PCG)を提案し,PCGがCFGと 理論的に等価になることを示す • PCGによってCFGの解釈の幅が広がる 3

4.

確率微分方程式 • Diffusion Modelに対応する確率微分方程式 • 特にDDPMの場合 4

5.

• 確率微分方程式の代わりに,常微分方程式を考えてもよい – 生成されるデータの分布は同じになる 5

6.

Classifier-free guidance • Classifier-free guidance (CFG) – 何らかの条件 c を入力とする – NNの出力をそのまま使う代わりに,条件を入力した時の出力と入力しない時 のNNの出力の重み付き和を用いる – CFGによって生成データの品質が向上することが実験的に知られている – Gamma-powered分布 6

7.

CFGの問題点 • CFGを使わずに生成されたデータの分布は学習データの分布に近づく • CFGを使って生成した分布はどんな分布か? – 学習データの分布ではない ( 𝛾𝛾 ≠ 1 ) – を使った時に学習データの分布を生成できるのなら,CFGはその代 わりにGamma-powered分布 を使っているので, CFGを使って生成されるのはGamma-powered分布なのではないか? →No 7

8.

DDPM/DDIM with CFG • ある分布 に対して,CFGを使ってDDPMまたはDDIMで生成 される分布が以下のようになる • 本来はDDPMとDDIMで生成される分布は一致するが,CFGを使うと 異なる場合がある • 特に,DDIMの方が分散が遥かに小さくなる 8

9.

反例1 • 仮定 • CFGを使って生成される分布は 解析的に求まる • 生成される分布はgamma-powered分布とは分散が全く異なる 9

10.

反例2 • 仮定 • 生成される分布はgamma-powered分布と平均も分散も異なり, DDIMでは左右対称性も失われる 10

11.

Predictor-Corrector guidance • Predictor-Corrector guidanceでは,1ステップでPredictorと Correctorのそれぞれで更新を行う – Predictor (DDIMに従って1回更新) – Corrector (Langevin dynamicsに従ってK回更新) 11

12.

比較: CFGの更新 • DDIM (or DDPM) に従って1回更新 12

13.

Predictor-Corrector guidance • Langevin Dynamics 以下の微分方程式の解は で に収束する • PCGは各更新で生成しようとする分布が異なる – Predictor: Diffusion Modelの枠組みで – Corrector: Langevin Dynamicsの枠組みで を生成しようとする を生成しようとする 13

14.

CFGとPCGの等価性 • DDPM+CFGの微分方程式とDDIM+PCGの微分方程式は一致する • 理想的には,DDIM+PCGはDDPM+CFGと等価とみなせる 14

15.

CFGとPCGの等価性 15

16.

Questions and Limitations • DDIM+CFGとPCGはどう対応するのか? – データ分布が混合正規分布の場合,分散が大きければ(山の重なりが大き い)CFGを使ってもDDPMとDDIMの生成分布は類似する • Guidanceとしての性能が優れているわけではない – DenoisingやLangevin Dynamicsの性能を向上させる研究は色々あるので,そ れらと組み合わせると性能向上が期待できる 16

17.

実験結果 • Stable Diffusion XL を用いた結果 17

18.

Appendix • 𝛾𝛾 = 1 (増幅なし)でもLangevin Dynamicsのステップを増やせば画像 品質は向上する 18

19.

まとめ • まとめ – CFGと等価なPredictor-Corrector guidanceを提案した • 所感 – Langevianの更新回数を増やすと画像品質が良くなるなら,結局Gammapowered分布に近づくことが大切なのか? 19