【Diffusion勉強会】Prompt-guided PreciseAudio Editing with Diffusion Models [1]

568 Views

August 06, 24

#音声編集 #拡散モデル #深層学習 #プロンプト #機械学習

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.5K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.8K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.4K

各ページのテキスト

DEEP LEARNING JP Prompt-guided Precise Audio Editing with Diffusion Models [1] [DL Papers] Itsunori Watanabe, waseda University http://deeplearning.jp/ 1

http://deeplearning.jp/

サマリ【背景】 • Text-to-audio (TTA) generation の技術は進歩したが，音声の柔軟は修正や変更は困難だった． • 不必要な部分まで全体的に変更してしまうことが多い【提案手法】 • 元の音声を抽象するプロンプト，元音声，編集後のプロンプトから編集後の音声を出力するdiffusionモデルを提案 • Traning-free (後述のfuserを各タスクごとに定式化するだけでfine-tuning等が必要ない) 【結果】 • Audio replace, audio refine, audio reweightの3つのタスクにおいて既存を上回る性能を発揮した 2

PPAEの概要拡散過程では元音声&プロンプトしか見ない，逆拡散過程で編集後のプロンプトの考慮を始める 3

従来のテキストによる条件付け(stable diffusion …etc) 𝑄 = 𝑙𝑞 (𝜙 𝑧𝑡 ) 𝐾 = 𝑙𝑘 (𝜓 𝑃 ) 𝑉 = 𝑙𝑣 (𝜓 𝑃 ) 𝑙𝑞 , 𝑙𝑘 , 𝑙𝑣 : linear projection cross attentionによって条件付け https://qiita.com/omiita/items/ecf8d60466c50ae8295b 4

https://qiita.com/omiita/items/ecf8d60466c50ae8295b

PPAEのアルゴリズム急にzを変化させるとoutputの質が低下することを観測 ↓ 逆拡散過程において徐々に𝑃∗ (編集後プロンプト)の考慮をしていきたいので，Fuserで元プロンプトの attention mapと編集後プロンプトのattention mapをブレンド・tが大きい(逆拡散過程の序盤)時は𝑀∗ (編集後プロンプトのattention map)の影響を小さく・tが小さくなるにつれ(逆拡散過程が進むにつれ)𝑀∗(編集後プロンプトのattention map)の影響を大きくしていく元音声のdenoising 編集後音声のdenoising(仮) 元音声&プロンプトのattention mapと編集後の音声&プロンプトのattention mapをfuse fuse後のattention mapで編集後音声のdenoisingの完成版を生成 5

Fuserの定式化 • Audio Replace • 一部の音声を別物にすり替えること • ex) 男性の声→女性の声 • Audio Refine • 一部の音声の特徴を変更すること • ex) クラシック風→モダン風 • Audio Reweight • 一部の音声を強調・抑制すること • ex) 背景のノイズを小さく 𝑀𝑡∗: 編集後のプロンプト𝑃∗のattention map 𝑀𝑡 : 元音声のプロンプト𝑃のattention map 𝑆𝑐𝑎 (𝑡): fusion比率．CosineAnnealingを採用 𝑀𝑡∗ 𝑖,𝑗 : attention mapの特定の要素(𝑖, 𝑗)に対して𝑆𝑐𝑎 (𝑡)が適用されるということ = 特定のプロンプトのtoken jによってのみattentionが変更される． 𝑐: reweightのスケールのコントローラー ※token jの決め方はわからず…(論文に載っていない) 6

ノイズ予測 𝜖𝜃 : ノイズ予測器 𝑧𝑡 : 潜在変数 𝜓(𝑃): プロンプト𝑃の埋め込み ∅ = 𝜙(“”): 空文字列の埋め込み 𝑤: guidance scale(どの程度プロンプトの情報を反映するか？) 音声においては一般に良い𝑤を選択できない • 画像生成(stable diffusion …etc)ではプロンプトに対する忠実度を表すが，入力に対する依存性が音声では強く単純な忠実度としての解釈が難しい 7

ガイダンスのbootstrapping 𝑤の候補の集合: 𝑊 各𝑤𝑖 に対してCLAPで編集後プロンプト𝑃∗との関連性が最も大きい𝑤𝑖 を選択 8

結果: Audio Replace 9

10.

結果: Audio Refine 10

11.

結果: Audio Reweight 11

12.

参考 [1] Manjie Xu, Chenxing Li, Duzhen zhang, Dan Su, Wei Liang, Dong Yu: “Prompt-guided Precise Audio Editing with Diffusion Models”, 2024; arXiv:2406.04350. 12