【DL輪読会】 Training-Free Diffusion Models Alignment with Sampling Demons

3.6K Views

October 24, 24

#拡散モデル #生成モデル #テスト時改善 #機械学習 #深層学習

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 49.5K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 46.9K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Training-Free Diffusion Models Alignment with Sampling Demons Yuta Oshima, Matsuo Iwasawa Lab http://deeplearning.jp/

http://deeplearning.jp/

Training-Free Diffusion Models Alignment with Sampling Demons 書誌情報著者 • Po-Hung Yeh1 , Kuang-Huei Lee2 , Jun-Cheng Chen1 • 1.Academia Sinica, 2.Google DeepMind 概要 • Test-time に，ノイズ除去の候補を複数用い，ユーザーが好む生成へと改善する手法 • 再訓練や，評価器の微分可能性が必要ない • Best-of-N のようなナイーブな手法より効率的に性能向上 2

拡散モデルのアラインメント • 拡散モデルは，高精細な動画像生成が大きく注目を集める[Ho et al. 2018] • ユーザーが好む生成をするよう，拡散モデルをアラインメントする研究も盛ん [Wallace et al. 2023] 3

拡散モデルのアラインメント • Fine-tuningによりモデルをアラインメントする手法 • RL: DPOK [Fan et al. 2023], DDPO [Black et al. 2024] • SFT: DPO [Wallace et al. 2023], DRaFT [Clark et al. 2024] 4

拡散モデルのアラインメント • Test-timeに生成を改善し，所望の生成を得る手法も存在 • Classifier guidance [Dhariwal et al. 2021] • DOODL [Wallace et al. 2023] • これらの手法は，勾配を用いて生成を改善するため，評価器が微分可能でないといけない 5

拡散モデルのアラインメント • 本研究では，ノイズ除去の候補を複数用い，ユーザーが好む生成へと改善する手法である，Demonを提案 • 再訓練や，評価器の微分可能性が必要ない • Demonとは，熱力学的プロセスを操作する架空の存在であるマクスウェルのデーモンに由来 6

提案手法 • どのようにして，生成過程を評価するのか？ • 画像の評価器は，ノイズの乗った画像ではなく，クリーンな画像に対してのみ適用できるものが多いので， 𝑥𝑡 から𝑥0 へのマッピングを考える • まず，拡散モデルの逆過程を確率微分方程式で表すと，以下のようになる • 𝑥0 を，拡散ステップ𝑡の画像𝑥𝑡 に対応するクリーン画像とすると， 7

提案手法 • どのようにして，生成過程を評価するのか？ • 実際には，SDEにより𝑥𝑡 から𝑥0 へマッピングし，評価の平均を取るのではなく， ODEによる 𝑥𝑡 から𝑥0 へのマッピング𝒄を用い，それを評価する • サンプルの個数を複数用意する必要がない上に，報酬関数𝑟のラプラシアンが0 に近い場合，良い近似になる(補題1参照) • 𝒄にはODEやCMを使用できる 8

提案手法 • 評価された候補をどのように使用するか • 高次元のガウスノイズ𝒛は，半径 𝑁 の超球面上のほど近くに位置する • 𝒛が𝑁次元標準正規分布に従う場合，高確率で， 𝒛 = 𝑁 + 𝒪 1 (補題5参照，中心極限定理などを利用する) • よって，以下のように，重み付き和と正規化により，新たなノイズ𝒛∗ を作成可能 9

10.

提案手法 • 評価された候補をどのように使用するか • 評価の低いノイズには負の重みをつけ，評価の高いノイズには正の重みをつける • このときの重み付けの手法をDemonと呼んでおり，この論文ではTanh DemonとBoltzmann Demonの二つを提案している 10

11.

実験 • 𝑇ステップの拡散ステップに対して，𝐾個の候補を出す • これらを変えることで，評価回数や計算時間を様々に変更して比較 • 使用するモデルは，SD v1.4 とSDXL 11

12.

実験 • 横軸をコスト，縦軸に評価関数の評価とした場合の結果 • 横軸は，左図では評価回数，右図では計算時間 • 最終状態でしか評価を行わない手法よりも，効率的に改善可能 • Best-of-Nよりも，評価関数の評価を効率的に改善できる • DOODLよりも，計算時間の面では効率的 12

13.

実験 • 様々な評価関数に対する結果 • Demonでは，多少評価関数に対してハックしてしまうものの，一つの評価関数を向上させることで，他の評価関数の評価も向上できている • 一方，DOODLでは，他の評価関数の評価が大きく落ちている 13

14.

実験 • 微分不可能な評価器へのアラインメント • VLM(Google Gemini, GPT4 Turbo)に，各シナリオ (右上)に合うような生成を選ばせ，それを元に評価を作成 • 選択された候補は+5，それ以外は−5 • すると，シナリオに沿っている画像を生成できることが，定性的に確認された • 一方，DOODLのような先行のtest-time改善手法は，評価器が微分可能でないと利用できない 14

15.

実験 • 人間の対話的判断へのアラインメント • 参照猫と似た猫と生成する，というタスク • ユーザは左図に示される候補の中から，似ている猫を選択 • 選択に応じて評価 • 選択された候補は+1，それ以外は−1 • すると，確かに参照猫と似た猫が生成できる 15

16.

実験 • Fine-tuneing手法(DPO)との比較 • PickScoreを評価関数として用いた場合，DPOよりも精度向上が大きい • さらに，DPOでFine-tuneingしたモデルのBest-of-Nを取り，推論にも計算コストをかけたとしても，Demonの方が性能が高い • ただ，PickScore以外で同様の結果になることの確認や，指標ハック度合いの比較はない 16

17.

結論 • 拡散モデルにおける，test-timeのアラインメント手法であるDemonを提案 • 再訓練や，評価器の微分可能性が必要ないため，VLMの出力や人間の対話的判断のような微分不可能な評価器に対してもアラインメント可能 • ステップごとに評価を行うことができるため，Best-of-Nや既存手法に対して，計算効率的 • さらに，この論文の検証範囲内では，Fine-tuningを用いたアラインメントよりも，評価向上 17

18.

感想興味深かった点 • 拡散モデルにおいても推論に計算量を割くことが，有効であることが示された • 特に，ステップごとに評価することが，計算効率的なアラインメントのために有効 • 限定的な検証ではあるが，fine-tuningを用いる手法よりも良い結果が示されたことも，面白い • 拡散モデルに対する推論のサーチの方法として加重平均があり得ることが示された • ノイズの加重平均をとる，という手法は，連続な出力である拡散モデルだからこそできること考える余地のある点 • ノイズの加重平均を取るのが，どれだけいい手法なのか分からない • 悪いノイズを(−1) 倍したら良いノイズになる，という暗黙の仮定があるが，本当？ • ビームサーチとの比較を見たかった • Boltzman Demonの場合は，温度パラメタτが小さい方が，アラインメント性能が良い • Boltzman Demonで，温度パラメタτ → 0 の場合は，𝑁 = 1のビームサーチと等価 • ただ，さらにそれよりもTanh Demonの場合の方が性能が良い 18

19.

参考文献 [Ho et al. 2018] Denoising Diffusion Probabilistic Models [Fan et al. 2023] DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models [Black et al. 2024] Training Diffusion Mode l s with Reinforcement Learning [Wallace et al. 2023] Diffusion Model Alignment Using Direct Preference Optimization [Clark et al. 2024] Directly Fine-Tuning Diffusion Models on Differentiable Rewards [Dhariwal et al. 2023] Diffusion Models Beat GANs on Image Synthesis [Wallace et al. 2023] End-to-End Diffusion Latent Optimization Improves Classifier Guidance [Kirstain et al. 2023] Pick-a-Pic: An Open Dataset of User Preferences for Text-to-Image Generation 19