2K Views
October 24, 24
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] Training-Free Diffusion Models Alignment with Sampling Demons Yuta Oshima, Matsuo Iwasawa Lab http://deeplearning.jp/
Training-Free Diffusion Models Alignment with Sampling Demons 書誌情報 著者 • Po-Hung Yeh1 , Kuang-Huei Lee2 , Jun-Cheng Chen1 • 1.Academia Sinica, 2.Google DeepMind 概要 • Test-time に, ノイズ除去の候補を複数用い, ユーザーが好む生成へと改善する手法 • 再訓練や,評価器の微分可能性が必要ない • Best-of-N のようなナイーブな手法より効率的 に性能向上 2
拡散モデルのアラインメント • 拡散モデルは,高精細な動画像生成が大きく注目を集める[Ho et al. 2018] • ユーザーが好む生成をするよう,拡散モデルをアラインメントする研究も盛ん [Wallace et al. 2023] 3
拡散モデルのアラインメント • Fine-tuningによりモデルをアラインメントする手法 • RL: DPOK [Fan et al. 2023], DDPO [Black et al. 2024] • SFT: DPO [Wallace et al. 2023], DRaFT [Clark et al. 2024] 4
拡散モデルのアラインメント • Test-timeに生成を改善し,所望の生成を得る手法も存在 • Classifier guidance [Dhariwal et al. 2021] • DOODL [Wallace et al. 2023] • これらの手法は,勾配を用いて生成を改善するため,評価器が微分可能でないといけない 5
拡散モデルのアラインメント • 本研究では, ノイズ除去の候補を複数用い,ユーザーが好む生成へと改善する 手法である,Demonを提案 • 再訓練や,評価器の微分可能性が必要ない • Demonとは,熱力学的プロセスを操作する架空の存在であるマクスウェルのデーモンに由来 6
提案手法 • どのようにして,生成過程を評価するのか? • 画像の評価器は,ノイズの乗った画像ではなく,クリーンな画像に対してのみ適 用できるものが多いので, 𝑥𝑡 から𝑥0 へのマッピングを考える • まず,拡散モデルの逆過程を確率微分方程式で表すと,以下のようになる • 𝑥0 を,拡散ステップ𝑡の画像𝑥𝑡 に対応するクリーン画像とすると, 7
提案手法 • どのようにして,生成過程を評価するのか? • 実際には,SDEにより𝑥𝑡 から𝑥0 へマッピングし,評価の平均を取るのではなく, ODEによる 𝑥𝑡 から𝑥0 へのマッピング𝒄を用い,それを評価する • サンプルの個数を複数用意する必要がない上に,報酬関数𝑟のラプラシアンが0 に近い場合,良い近似になる(補題1参照) • 𝒄にはODEやCMを使用できる 8
提案手法 • 評価された候補をどのように使用するか • 高次元のガウスノイズ𝒛は,半径 𝑁 の超球面上のほど近くに位置する • 𝒛が𝑁次元標準正規分布に従う場合,高確率で, 𝒛 = 𝑁 + 𝒪 1 (補題5参照,中心極限定理 などを利用する) • よって,以下のように,重み付き和と正規化により,新たなノイズ𝒛∗ を作成可能 9
提案手法 • 評価された候補をどのように使用するか • 評価の低いノイズには負の重みをつけ,評価の高いノイズには正の重みをつける • このときの重み付けの手法をDemonと呼んでおり,この論文ではTanh DemonとBoltzmann Demonの二つを提案している 10
実験 • 𝑇ステップの拡散ステップに対して,𝐾個の候補を出す • これらを変えることで,評価回数や計算時間を様々に変更して比較 • 使用するモデルは,SD v1.4 とSDXL 11
実験 • 横軸をコスト,縦軸に評価関数の評価とした場合の結果 • 横軸は,左図では評価回数,右図では計算時間 • 最終状態でしか評価を行わない手法よりも,効率的に改善可能 • Best-of-Nよりも,評価関数の評価を効率的に改善できる • DOODLよりも,計算時間の面では効率的 12
実験 • 様々な評価関数に対する結果 • Demonでは,多少評価関数に対してハックしてしまうものの,一つの評価関数を向上させる ことで,他の評価関数の評価も向上できている • 一方,DOODLでは,他の評価関数の評価が大きく落ちている 13
実験 • 微分不可能な評価器へのアラインメント • VLM(Google Gemini, GPT4 Turbo)に,各シナリオ (右上)に合うような生成を選ばせ,それを元に 評価を作成 • 選択された候補は+5,それ以外は−5 • すると,シナリオに沿っている画像を生成でき ることが,定性的に確認された • 一方,DOODLのような先行のtest-time改善手 法は,評価器が微分可能でないと利用できない 14
実験 • 人間の対話的判断へのアラインメント • 参照猫と似た猫と生成する,というタスク • ユーザは左図に示される候補の中から,似て いる猫を選択 • 選択に応じて評価 • 選択された候補は+1,それ以外は−1 • すると,確かに参照猫と似た猫が生成できる 15
実験 • Fine-tuneing手法(DPO)との比較 • PickScoreを評価関数として用いた場合,DPOよりも精度向上が大きい • さらに,DPOでFine-tuneingしたモデルのBest-of-Nを取り,推論にも計算コストをかけたとし ても,Demonの方が性能が高い • ただ,PickScore以外で同様の結果になることの確認や,指標ハック度合いの比較はない 16
結論 • 拡散モデルにおける,test-timeのアラインメント手法であるDemonを提案 • 再訓練や,評価器の微分可能性が必要ないため,VLMの出力や人間の対話的判断のような微 分不可能な評価器に対してもアラインメント可能 • ステップごとに評価を行うことができるため,Best-of-Nや既存手法に対して,計算効率的 • さらに,この論文の検証範囲内では,Fine-tuningを用いたアラインメントよりも,評価向上 17
感想 興味深かった点 • 拡散モデルにおいても推論に計算量を割くことが,有効であることが示された • 特に,ステップごとに評価することが,計算効率的なアラインメントのために有効 • 限定的な検証ではあるが,fine-tuningを用いる手法よりも良い結果が示されたことも,面白い • 拡散モデルに対する推論のサーチの方法として加重平均があり得ることが示された • ノイズの加重平均をとる,という手法は,連続な出力である拡散モデルだからこそできること 考える余地のある点 • ノイズの加重平均を取るのが,どれだけいい手法なのか分からない • 悪いノイズを(−1) 倍したら良いノイズになる,という暗黙の仮定があるが,本当? • ビームサーチとの比較を見たかった • Boltzman Demonの場合は,温度パラメタτが小さい方が,アラインメント性能が良い • Boltzman Demonで,温度パラメタτ → 0 の場合は,𝑁 = 1のビームサーチと等価 • ただ,さらにそれよりもTanh Demonの場合の方が性能が良い 18
参考文献 [Ho et al. 2018] Denoising Diffusion Probabilistic Models [Fan et al. 2023] DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models [Black et al. 2024] Training Diffusion Mode l s with Reinforcement Learning [Wallace et al. 2023] Diffusion Model Alignment Using Direct Preference Optimization [Clark et al. 2024] Directly Fine-Tuning Diffusion Models on Differentiable Rewards [Dhariwal et al. 2023] Diffusion Models Beat GANs on Image Synthesis [Wallace et al. 2023] End-to-End Diffusion Latent Optimization Improves Classifier Guidance [Kirstain et al. 2023] Pick-a-Pic: An Open Dataset of User Preferences for Text-to-Image Generation 19