【DL輪読会】Improving the Diffusability of Autoencoders

4.5K Views

March 13, 25

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Improving the Diffusability of Autoencoders Daiki Miyake, Matsuo Lab, M1 1

2.

書誌情報 Improving the Diffusability of Autoencoders arXivリンク https://arxiv.org/abs/2502.14831 2

3.

概要 • Latent Diffusion Models (LDM) ではピクセル空間 われることが多い latent空間の変換にVAEが使 • しかし,この設定では高周波成分が不自然に強調されてしまい,diffusionの学習 に不利な状況をもたらす可能性がある • 実験で,高周波成分を抑えるよう正則化を加えて学習させたAutoEncoderを用い ると,LDMの性能が向上することを示した 3

4.

背景: Latent Diffusion Models (LDM) • Diffusion modelsは,画像を生成する際には徐々にノイズを除去していく • ピクセル空間では,最後の方のノイズ除去は定性的にほとんど認識できない →ここを数十ステップかけて計算するのは効率が悪い • VAEによって画像をLatent空間に埋め込み,潜在空間でdiffusionの遷移を行う https://arxiv.org/abs/2112.10752 4

5.

背景: Latent Diffusion Models (LDM) • ただし,通常のVAEのLatent空間とは少し異なる 1本のベクトルではなく,空間方向に広がりを持つ複数のベクトルになる 5

6.

Latent空間の解析: 準備 • Latent空間の周波数解析のために,8x8のブロックごとに2次元離散コサイン変換 (DCT)を計算する • 可視化のために,1次元に並び替える (JPEGのようにジグザグ順で) 低 高 低 高 6

7.

Latent空間の解析: 高周波成分の強調 • Fluxという公開モデルのAutoEncoderを使用 • RGB空間と比較して,高周波成分のパワーが強い • Latent空間のchannel数が増えるほどその傾向は強まる 7

8.

Latent空間の解析: KL制約 • VAEは再構成誤差+KL正則化によって学習される • KL正則化を強めて学習させると,より高周波成分が強まることが観測された 8

9.

周波数空間での拡散過程 • 周波数空間でdiffusionを考える • ホワイトノイズを加える = 平坦な周波数成分を加える 9

10.

周波数空間での拡散過程 • 周波数空間でdiffusionを考える • ホワイトノイズを加える = 平坦なスペクトルを加える 高周波成分は 早い段階で消える 低周波成分は ある程度まで残る 10

11.

周波数空間での逆拡散過程 • 逆拡散過程では,まず低周波成分を生成する • その後,低周波成分を条件として高周波成分を生成する • 周波数空間では自己回帰的な生成をしている 11

12.

周波数空間での逆拡散過程 • もしデータの信号のスペクトルも平坦だったら? • 常にすべての周波数成分を生成する必要がある • 自己回帰的な生成でもなくなるので,より難しいタスクを解くことになる 12

13.

提案手法 • Latent空間で高周波成分のパワーを落としたい • 周波数に関する不変性についての正則化を目的関数に加える • bilinear法による画像縮小によってローパスフィルタをかける ピクセル空間で ローパスフィルタ をかけたもの Latent空間で ローパスフィルタ をかけたもの 13

14.

提案手法 • 提案手法 (w/ SE) では高周波成分のパワーが小さくなる 14

15.

提案手法 • 提案手法(下)は従来のLatent空間(上)で生成するよりも,きちんと周波数成分ご とに分かれて生成される 15

16.

実験: 画像生成 • COYO datasetでFluxの AutoEncoderをfine-tuning • 提案手法の正則化あり(+FT-SE) だとFIDが向上 • DiT-XL/2でKL正則化を抜いて 1Mステップ追加で学習すると, さらにFIDが下がる 16

17.

実験: 動画生成 • Panda-70M datasetでCogVideoXの AutoEncoderをfine-tuning • 画像の場合と同様,提案手法の 正則化を加えることで性能向上 17

18.

Ablation: 再構成品質 • 提案手法を追加しても,AutoEncoderの最高性品質は悪化しない 18

19.

Ablation: カットオフ周波数 • ローパスフィルタをかけるときに,高周波成分を除去する割合を変えて実験 • どんな割合でも提案手法(w/ SE)が最も良い結果 →フィルタのカットオフ周波数を厳密に設計する必要がない 19

20.

まとめ • 従来のLatent空間では高周波成分が不自然に強調されることを発見 • 高周波成分を抑制するような正則化を導入し,LDMの性能が向上することを示し た 20