6.4K Views
March 26, 24
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] Improved Denoising Diffusion Probabilistic Models [1] Itsunori Watanabe, Waseda University http://deeplearning.jp/ 1
サマリー • DDPMを少し修正するだけでGANやVAEに匹敵する分布の再 現性を持つ • 拡散過程のステップ数を減らしても精度の良い画像の⽣成を 可能にした。 2
⽬次 • DDPMの弱点 • DDPMの改良 – 分散の学習 – スケジューラーの変更 – Lossの改良 • 結果 3
⽬次 • DDPMの弱点 • DDPMの改良 – 分散の学習 – スケジューラーの変更 – Lossの改良 • 結果 4
DDPMの弱点:対数尤度が低い • 対数尤度が低い = 「再現できるデータ分布のバリエーション が少ない」? • FIDとInception scoreは⾼いが、対数尤度は低い。[2] • FID: ⽣成画像の質 • 対数尤度: ⽣成画像の多様性 • Inception score: ⽣成画像の質と多様性の両⾯ 5
⽬次 • DDPMの弱点 • DDPMの改良 – 分散の学習 – スケジューラーの変更 – Lossの改良 • 結果 6
通常分散は𝜷𝒕 で固定される 𝛽! ガウス分布の分散を𝛽! として固定しようがなんらかの形で𝛽"! と推定しようが精度はあまり変わらない 7
" 𝒕 の前半の差異が対数尤度に⼤きく関わっている可能性 𝜷𝒕 と𝜷 拡散過程の後半では𝛽! は大して変わらない Lossの減少に寄与するのは拡散過程の前半 8
各次元の分散を制御するベクトル𝒗をモデルが出⼒ (𝜆 = 0.001) ∑"(𝑥! , 𝑡)に依存しない ∑"(𝑥! , 𝑡)に依存する 9
特に低解像度の画像ではlinear shedularではノイズが⼤きすぎる Linear schedule Cosine schedule Linear schedulの20%のdiffusion過程をskipしてもlossは大して変わらない 10
Cosine scheduleでt=0, t=T近くでのノイズを抑制 • Linear scheduleに比べて、より緩やかに拡散 • 初期と後期のノイズを抑制 • (実用上は)t = 0近傍で𝛽! が小さくなりすぎないよ うオフセットを追加 11
tの重要度によって𝑳𝒗𝒍𝒃 を再定義 • 当初は𝐿#$% を直接最適化する方針だったが予想以上に難しく、ノイズが非常に多いことが判明 • tによって一様に𝐿! を足し合わせているのが原因と考えて、tによる重要度を定義 12
⽬次 • DDPMの弱点 • DDPMの改良 – 分散の学習 – スケジューラーの変更 – Lossの改良 • 結果 13
Cosine scheduleと𝑳𝒗𝒍𝒃 で⾼い対数尤度を実現 • 𝐿#$% はNLLは低いもののFIDを犠牲しているので、 実用上は𝐿&'%()* がFIDをそこまで犠牲にせずNLL を下げられており、生成画像も 𝐿&'%()* が最もき れい 14
そのほかのモデルと⽐較しても低いNLLを実現 15
CIFAR-10, ImageNetいずれにおいても収束速度が向上 16
参考⽂献 [1] Alex Nichol, Prafulla Dhariwal: “Improved Denoising Diffusion Probabilistic Models”, 2021; arXiv:2102.09672. [2] Jonathan Ho, Ajay Jain, Pieter Abbeel: “Denoising Diffusion Probabilistic Models”, 2020; arXiv:2006.11239. 17