269 Views
August 06, 24
スライド概要
DL輪読会資料
DEEP LEARNING JP Prompt-guided Precise Audio Editing with Diffusion Models [1] [DL Papers] Itsunori Watanabe, waseda University http://deeplearning.jp/ 1
サマリ 【背景】 • Text-to-audio (TTA) generation の技術は進歩したが,音声の柔軟は修正や変更は困難だった. • 不必要な部分まで全体的に変更してしまうことが多い 【提案手法】 • 元の音声を抽象するプロンプト,元音声,編集後のプロンプトから 編集後の音声を出力するdiffusionモデルを提案 • Traning-free (後述のfuserを各タスクごとに定式化するだけでfine-tuning等が 必要ない) 【結果】 • Audio replace, audio refine, audio reweightの3つのタスクにおいて既存 を上回る性能を発揮した 2
PPAEの概要 拡散過程では元音声&プロンプトしか見ない,逆拡散過程で編集後のプロンプトの考慮を始める 3
従来のテキストによる条件付け(stable diffusion …etc) 𝑄 = 𝑙𝑞 (𝜙 𝑧𝑡 ) 𝐾 = 𝑙𝑘 (𝜓 𝑃 ) 𝑉 = 𝑙𝑣 (𝜓 𝑃 ) 𝑙𝑞 , 𝑙𝑘 , 𝑙𝑣 : linear projection cross attentionによって条件付け https://qiita.com/omiita/items/ecf8d60466c50ae8295b 4
PPAEのアルゴリズム 急にzを変化させるとoutputの質が低下することを 観測 ↓ 逆拡散過程において徐々に𝑃∗ (編集後プロンプト)の 考慮をしていきたいので,Fuserで元プロンプトの attention mapと編集後プロンプトのattention mapを ブレンド ・tが大きい(逆拡散過程の序盤)時は𝑀∗ (編集後プロ ンプトのattention map)の影響を小さく ・tが小さくなるにつれ(逆拡散過程が進むにつ れ)𝑀∗(編集後プロンプトのattention map)の影響を大 きくしていく 元音声のdenoising 編集後音声のdenoising(仮) 元音声&プロンプトのattention mapと編集後の音声&プロンプトのattention mapをfuse fuse後のattention mapで編集後音声のdenoisingの完成版を生成 5
Fuserの定式化 • Audio Replace • 一部の音声を別物にすり替えること • ex) 男性の声→女性の声 • Audio Refine • 一部の音声の特徴を変更すること • ex) クラシック風→モダン風 • Audio Reweight • 一部の音声を強調・抑制すること • ex) 背景のノイズを小さく 𝑀𝑡∗: 編集後のプロンプト𝑃∗のattention map 𝑀𝑡 : 元音声のプロンプト𝑃のattention map 𝑆𝑐𝑎 (𝑡): fusion比率.CosineAnnealingを採用 𝑀𝑡∗ 𝑖,𝑗 : attention mapの特定の要素(𝑖, 𝑗)に対して𝑆𝑐𝑎 (𝑡)が適用されるということ = 特定のプロンプトのtoken jによってのみattentionが変更される. 𝑐: reweightのスケールのコントローラー ※token jの決め方はわからず…(論文に載っていない) 6
ノイズ予測 𝜖𝜃 : ノイズ予測器 𝑧𝑡 : 潜在変数 𝜓(𝑃): プロンプト𝑃の埋め込み ∅ = 𝜙(“”): 空文字列の埋め込み 𝑤: guidance scale(どの程度プロンプトの情報を反映するか?) 音声においては一般に良い𝑤を選択できない • 画像生成(stable diffusion …etc)ではプロンプトに対する忠実度を表すが,入力に対する依存性が音声では強く 単純な忠実度としての解釈が難しい 7
ガイダンスのbootstrapping 𝑤の候補の集合: 𝑊 各𝑤𝑖 に対してCLAPで編集後プロンプト𝑃∗との関連性が 最も大きい𝑤𝑖 を選択 8
結果: Audio Replace 9
結果: Audio Refine 10
結果: Audio Reweight 11
参考 [1] Manjie Xu, Chenxing Li, Duzhen zhang, Dan Su, Wei Liang, Dong Yu: “Prompt-guided Precise Audio Editing with Diffusion Models”, 2024; arXiv:2406.04350. 12