763 Views
September 17, 24
スライド概要
DL輪読会資料
“Classifier-Free Guidance is a Predictor-Corrector” Daiki Miyake, Matsuo Lab, M1 1
書誌情報 • タイトル Classifier-Free Guidance is a Predictor-Corrector • 著者 Arwen Bradley, Preetum Nakkiran (Apple) • リンク – arXiv https://www.arxiv.org/abs/2408.09000 – プロジェクトページ https://machinelearning.apple.com/research/predictor-corrector 2
概要 • Classifier-free guidance (CFG)がどのような分布を生成するのかが未 解明 • 新たにPredictor-Corrector guidance (PCG)を提案し,PCGがCFGと 理論的に等価になることを示す • PCGによってCFGの解釈の幅が広がる 3
確率微分方程式 • Diffusion Modelに対応する確率微分方程式 Forward Backward (DDPM) Backward (DDIM) 4
Classifier-free guidance • Classifier-free guidance (CFG) – Gamma-powered分布 5
CFGの問題点 • CFGを使って逆拡散過程を計算した時に得られる分布はどんな分布か – ではない ( 𝛾𝛾 ≠ 1 ) – Gamma-powered分布 でもない 6
DDPM/DDIM with CFG • ある分布 に対して,逆拡散過程でCFGを使ってDDPMまたは DDIMで生成される分布が以下のようになる • 本来はDDPMとDDIMで生成される分布は一致するが,CFGを使うと 異なる場合がある • 特に,DDIMの方が分散が遥かに小さくなる 7
反例1 • 仮定 • 生成される分布は解析的に求まる • 生成される分布はgamma-powered分布とは分散が全く異なる 8
反例2 • 分散が異なるだけならサンプルを定数倍すれば良いだけ? • 仮定 • 生成される分布はgamma-powered分布と平均も分散も異なり, DDIMでは対称性も失われる 9
Predictor-Corrector guidance • Predictor-Corrector guidanceでは,1ステップでPredictorと Correctorのそれぞれで更新を行う – Predictor (DDIMに従って1回更新) – Corrector (Langevin dynamicsに従ってK回更新) 10
Predictor-Corrector guidance • Langevin Dynamics 以下の微分方程式の解は で に収束する • PCGは各ステップで生成しようとする分布が異なる – Predictor: Diffusion Modelの枠組みで – Corrector: Langevin Dynamicsの枠組みで を生成しようとする を生成しようとする 11
CFGとPCGの等価性 • DDPM+CFGの微分方程式とDDIM+PCGの微分方程式は一致する • 理想的には,DDIM+PCGはDDPM+CFGと等価とみなせる 12
CFGとPCGの等価性 13
CFGの働きの定式化 • PerceivedQuality[*]…人にとっての生成画像品質 • …理想的なCFGによって得られる分布 (スコアが正確に計算できた上でのSDEの厳密解) • …実際のCFGによって得られる分布 (推定されたスコアを用いて,SDEを離散的に解いて得られる解) 14
CFGの働きの定式化 • γを1から大きくしていくとReal CFGの項が良くなるが,これは2つ の要素に分解できる 1. Ideal CFGの項が良くなる (分布そのものを改善する) 2. Generalization Gapの項が小さくなる (正則化,分布の単純化) 15
Questions and Limitations • DDIM+CFGとPCGはどう対応するのか? – データ分布が混合正規分布の場合,分散が大きければ(山の重なりが大き い)DDPMとDDIMの生成分布は類似する • Guidanceとしての性能が優れているわけではない – DenoisingやLangevin Dynamicsの性能を向上させる研究は色々あるので,そ れらと組み合わせると性能向上が期待できる 16
実験結果 • Stable Diffusion XL を用いた結果 17
Appendix • 𝛾𝛾 = 1 (増幅なし)でもLangevin Dynamicsのステップを増やせば画像 品質は向上する 18
まとめ • まとめ – CFGと等価なPredictor-Corrector guidanceを提案した • 所感 – γ=1でもCorrector項の働きを強めることで綺麗な画像が生成できる ⇒CFGやPCGを使わないとGeneralization Gapが大きいまま ⇒そもそもスコアを正確に学習できていない 19