【DL輪読会】NFIG: Multi-Scale Autoregressive Image Generation via Frequency Ordering

534 Views

January 08, 26

#画像生成 #自己回帰モデル #周波数分解 #NFIG #深層生成モデル

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.6K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.3K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 49.1K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 46.7K

各ページのテキスト

NFIG: Multi-Scale Autoregressive Image Generation via Frequency Ordering Daiki Miyake, Matsuo Lab 1

書誌情報 • タイトル NFIG: Multi-Scale Autoregressive Image Generation via Frequency Ordering • 著者 Zhihao Huang, Xi Qiu, Yukuo ma, Yifu Zhou, Junjie Chen, Hongyuan Zhang*, Chi Zhang*, Xuelong Li* from 西北工業大学、中国電信、香港大学、北京航空航天大学 (* Corresponding Author) • リンク Openreview… https://openreview.net/forum?id=nHNYDM6PVz ※arXiv版は修正前のものなので内容が異なる 2

https://openreview.net/forum?id=nHNYDM6PVz

概要 • Next-Token Prediction的な画像生成のフレームワークとして、周波数方向の順序付けを提案 • SoTAであったNext-Scale Predictionを比較して、少パラメータで高品質に画像を生成できることを実験的に示した 3

背景 • これまでの自己回帰(AR)型の画像生成モデルの課題 PixelCNN (NeurIPS2016) PixelCNN++ (ICLR2017) VQ-GAN (CVPR2021) ViTVQ (ICLR2022) CNNに因果マスクを導入し、画像を左上から順に生成 ✘長距離の関係を捉えられない Transformerを用いて、画像を左上から順に生成長距離の関係性理解が改善 ✘生成に時間がかかる Fast PixelCNN++ VAR (NeurIPS2024) PixelCNNにキャッシングを導入生成時間短縮 ✘高解像度だと依然として遅い低解像度から高解像度の順で ARモデルを定義生成品質・時間共に改善 4

背景 • VARのように、ARモデリングの再定義が有効 →より効率的なモデリング方法はないか？ • 自然画像は、低周波成分を多く、高周波成分を少なく含む傾向にある →低周波成分から高周波成分の順で生成する、Next-Frequency Prediction • ある解像度の画像が表現できる周波数は、解像度に比例する →VARと同様の計算効率を達成できる 5

手法: 周波数分解 • 画像を潜在表現にEncodeし、その潜在表現を n 個の周波数成分に分解する 𝐸𝐸: Encdoer • i 番目(i = 1, … , n)の周波数成分はフーリエ変換とマスキングによって抽出される 𝐹𝐹: フーリエ変換 𝑀𝑀𝑖𝑖 : マスク ※画像は縦・横の周波数成分を持つので、フーリエ変換すると2次元の周波数情報で表される。色の濃さは各周波数成分がどれだけの強さを持っているかを表す。中心が周波数(0,0)を表し、外側がより高周波の成分を表す。 6

手法: 周波数分解 • i 番目(i = 1, … , n)のステージでは、 𝜎𝜎𝑖𝑖−1 , 𝜎𝜎𝑖𝑖 の範囲の周波数の成分を抽出する ℎ𝑖𝑖 , 𝑤𝑤𝑖𝑖 : i 番目の画像の縦幅と横幅 • 画像サイズの大きなステージが、より広い範囲の周波数成分を含む 7

手法: 潜在表現の離散化 • 既存のARモデル同様、潜在表現を離散化されたトークンに落とし込む • 離散化トークンの候補 𝑧𝑧 を複数持っておき(codebook)、潜在表現に最も近い 𝑧𝑧 をモデルの入出力に使う (𝑧𝑧 も学習する) 𝑓𝑓̂𝑖𝑖 : 抽出された i 番目の周波数成分 ℎ𝑖𝑖 , 𝑤𝑤𝑖𝑖 : i 番目の画像の縦幅と横幅 𝐼𝐼: 補間関数 (サイズを合わせるための処理) • Encoder/Decoderと合わせて、再構成誤差によって学習される 8

実験 • ImageNet 256x256 で学習 • NFIGはVAR-d16と同程度のパラメータを持つが、より高品質 • NFIGと同程度の品質であるVAR-d20 よりも推論時間が高速 (パラメータが少ないため) • DiffusionやMask型自己回帰モデルと比較しても、NFIGの方が高品質 9

10.

実験 • パラメータサイズを増やすと性能向上 • 学習時間を延ばしても性能向上 • NFIGは、(検証した範囲では)スケールする 10

11.

Ablation • 提案したFR-Quantizer(周波数分解+離散化)の他にも、 – Tokenizerの学習に、DINOベースのDiscriminatorを用いた敵対的損失を導入 – Transformerの正規化にAdaLN(条件ベクトルでアフィン変換)を使用 – 生成時にTop_kサンプリング, Classifier-free guidanceを使用 ※これらはVAR等の既存研究でも用いられているため、公正な比較にはなっている 11

12.

VARとの違い • NFIGは周波数方向の分解、VARは解像度による分解 • 低解像度は低周波成分しか含むことができないので、VARも周波数分解をしていると見なせる • 離散化誤差の観点では、特に高周波成分の復元で、NFIGの周波数分解の方が優れている 12

13.

まとめ • 低周波成分から高周波成分の順で自己回帰的に画像生成を行うNFIGを提案 • SoTAモデルであるVARと比較して、より少ないパラメータで高品質な画像を生成できる • 明示的に周波数分解を行うことで、VARよりも高周波成分のEncode/Decodeに強くなる 13

14.

感想 • 深層生成モデルで生成される周波数を制御するような既存研究があまり考慮されていない • フーリエ変換は画像の局所構造 (画像のこの部分だけ特に高周波成分が強い) を反映しない • 代わりにWavelet変換を用いることで、高周波成分の生成が上手く行く場合がある Wavelet Diffusion (CVPR2023) SWAGAN • NFIGの周波数分解の設計が、かなりヒューリスティック StyleGAN3 (NeurIPS2021) 14

15.

感想 • 定性的な生成結果を見ると、最後の方で一気に生成しているように見える • 細かい部分の生成に失敗する例も報告されている • 周波数分解の方法の観点で、かなり改善する余地はありそう 15