Music signal separation using supervised nonnegative matrix factorization with orthogonality and maximum-divergence penalties (in Japanese)

2.2K Views

March 19, 15

スライド概要

Presented at 28th Signal Processing Symposium (SIP Symposium) (domestic conference)
Daichi Kitamura, Hiroshi Saruwatari, Kosuke Yagi, Kiyohiro Shikano, Yu Takahashi, Kazunobu Kondo, "Music signal separation using supervised nonnegative matrix factorization with orthogonality and maximum-divergence penalties," Proceedings of 28th Signal Processing Symposium (SIP Symposium), C1-4, pp.539-544, Yamaguchi, November 2013 (信号処理若手奨励賞受賞).

profile-image

http://d-kitamura.net/links_en.html

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Music Signal Separation Using Supervised Nonnegative Matrix Factorization with Orthogonality and Maximum-divergence Penalties 直交化及び距離最大化則条件を用いた 教師あり非負値行列因子分解による音楽信号分離 北村大地, 猿渡洋, 八木浩介, 鹿野清宏 (奈良先端科学技術大学院大学) 高橋祐, 近藤多伸 (ヤマハ株式会社)

2.

発表の流れ • 研究背景 • 従来手法 – 非負値行列因子分解 – 教師あり非負値行列因子分解 – 従来手法の問題点 • 提案手法 – 罰則条件付き教師あり非負値行列因子分解 • 基底直交化罰則条件 • 基底間距離最大化罰則条件 • 評価実験 – 2音源混合信号 – 4音源混合信号 • まとめ 2

3.

発表の流れ • 研究背景 • 従来手法 – 非負値行列因子分解 – 教師あり非負値行列因子分解 – 従来手法の問題点 • 提案手法 – 罰則条件付き教師あり非負値行列因子分解 • 基底直交化罰則条件 • 基底間距離最大化罰則条件 • 評価実験 – 2音源混合信号 – 4音源混合信号 • まとめ 3

4.

研究背景 • 音源分離技術 – 複数の音源が混合された信号を個々の音源に分離する信号処理 – 音声と雑音の分離,個々の音源の編集,音拡張現実感への基盤技術 特定音源の 分離・抽出 • 代表的な音源分離方法 – 時間-周波数表現されたスペクトログラム上で音源ごとに分解 Frequency 分離 最初の音 Time 2つの音が存在 2番目の音 4

5.

発表の流れ • 研究背景 • 従来手法 – 非負値行列因子分解 – 教師あり非負値行列因子分解 – 従来手法の問題点 • 提案手法 – 罰則条件付き教師あり非負値行列因子分解 • 基底直交化罰則条件 • 基底間距離最大化罰則条件 • 評価実験 – 2音源混合信号 – 4音源混合信号 • まとめ 5

6.

従来手法: 非負値行列因子分解 [Lee, et al., 2012] • 非負値行列因子分解 (nonnegative matrix factorization: NMF) Amplitude Frequency Frequency – スパース分解表現による特徴量抽出手法 Amplitude Time 観測行列 (スペクトログラム) Time パーツ,基底 アクティベーション行列 (時間的なゲイン変化) 基底行列 (頻出スペクトルパターン) Ω: 周波数ビン数 𝑇: 時間フレーム数 𝐾: 基底数 • 分解された基底を音源毎に選別する教師無しNMFは非常に困難 6

7.

従来手法: 教師ありNMF (SNMF) [Smaragdis, et al., 2007] • 分離したい目的音の教師 (サンプル) 音を事前に学習 – 学習プロセスで教師スペクトル基底 (dictionary) を作成 – 分離プロセスで目的音 と,非目的音 に分離 学習プロセス 音階情報等 分離目的音の教師音 教師音から作成した教師スペクトル基底 最適化 分離プロセス 混合音 固定 目的音 非目的音 7

8.

従来手法の問題点 • SNMFにおける基底共有問題 – 教師基底 とその他の基底 の間には特に制約が無い – 目的音のスペクトルがその他の基底 に現れる可能性がある その他の基底 に教師と同じスペクトルが現れた場合 本来の目的信号 推定目的音 – 推定した目的音には欠損が生じる – コスト関数が混合信号 と れているため 推定非目的音 の距離のみで定義さ 8

9.

基底共有問題: SNMFによる分離例 従来手法 SNMFで 分離 混合信号 目的音のみの 信号 (理想) 9

10.

基底共有問題: SNMFによる分離例 非目的音 従来手法 SNMFで 分離 混合信号 目的音のみの 信号 (理想) 10

11.

基底共有問題: SNMFによる分離例 従来手法 SNMFで 分離 混合信号 目的音のみの 信号 (理想) 分離信号 分離信号には目的成分 の欠損が生じている 11

12.

発表の流れ • 研究背景 • 従来手法 – 非負値行列因子分解 – 教師あり非負値行列因子分解 – 従来手法の問題点 • 提案手法 – 罰則条件付き教師あり非負値行列因子分解 • 基底直交化罰則条件 • 基底間距離最大化罰則条件 • 評価実験 – 2音源混合信号 – 4音源混合信号 • まとめ 12

13.

提案手法: 罰則条件付きSNMF • 教師と同じスペクトル基底がその他の基底に現れる 基底共有問題が発生,分離した目的音が欠落 • その他の基底 を教師基底 と (できるだけ) 無相関に する罰則条件をコスト関数に付与する • 罰則条件付きSNMF (Penalized SNMF: PSNMF) 混合音 固定 なるべく 目的音 非目的音 と無相関となるように最適化 13

14.

SNMFの分解モデルとコスト関数 分解モデル: 教師基底 (固定) SNMFのコスト関数: 一般化距離関数: -divergence [Eguchi, et al., 2001] 14

15.

PSNMFの分解モデルとコスト関数 分解モデル: 教師基底 (固定) SNMFのコスト関数: PSNMFのコスト関数: 無相関にする罰則項を付与 2種類の罰則項を提案する 15

16.

基底直交化罰則条件 • 教師基底 とその他の基底 くなる を求める – 類似した基底が現れると の内積ができるだけ小さ は大きな値になる • 基底は全て周波数方向の総和が1になる制限を与える – NMFにおけるスケールの任意性を無くすため • コスト関数に付与する際に重み係数 通常のNMFは スケールが任意 を与える 16

17.

基底間距離最大化罰則条件 • 教師基底 とできるだけ遠いその他の基底 を求める – 類似した基底が現れると距離値は小さな値になる • 基底は全て周波数方向の総和が1になる制限を与える • コスト関数に付与する際に負号を反転した指数関数とし 重み係数 と感度パラメータ を与える – NMF項と合わせて罰則項も最小化問題とするため – 罰則項の最小値を0とするため 17

18.

PSNMFの最適化更新式の導出 • コスト関数を最小化する変数 を求める • 導出には補助関数法を用いる – コスト関数 の上限を与える補助関数 を定義 – 補助変数と目的変数を交互に最小化してコスト関数を間接的に 最小化 – と の補助関数を設計する 18

19.

PSNMFの最適化更新式の導出 • コスト関数を最小化する変数 を求める 但し, • 第二項と第三項は の値に応じて凸関数 (Convex) か 凹関数 (Concave) になる – 凸関数: Jensenの不等式 – 凹関数: 接線不等式 19

20.

PSNMFの最適化更新式の導出 • コスト関数を最小化する変数 を求める 但し, は補助変数 • 常に凸関数になる – 凸関数: Jensenの不等式 20

21.

PSNMFの最適化更新式の導出 • コスト関数を最小化する変数 • 設計した補助関数 を求める を各変数で偏微分 21

22.

PSNMFの最適化更新式 • 直交化罰則条件の更新式 但し, 22

23.

PSNMFの最適化更新式 • 距離最大化罰則条件の更新式 但し, 23

24.

発表の流れ • 研究背景 • 従来手法 – 非負値行列因子分解 – 教師あり非負値行列因子分解 – 従来手法の問題点 • 提案手法 – 罰則条件付き教師あり非負値行列因子分解 • 基底直交化罰則条件 • 基底間距離最大化罰則条件 • 評価実験 – 2音源混合信号 – 4音源混合信号 • まとめ 24

25.

実験条件 • MIDI信号で作成したモノラル音源 • Clarinet, Oboe, Piano, Celloの4種類 • 2音源混合と4音源混合の信号で評価 – 2音源は全12パターン,4音源は全4パターンの平均評価値を算出 • 教師音は分離目的音の音域をカバーする同じMIDIの音階情報 教師用 音源信号 目的音源の音域をカバーする2オクターブの24音階 25

26.

実験条件 • その他の実験条件 観測信号 教師信号 距離規範 基底数 重み係数 比較手法 2音源混合及び4音源混合した信号 目的音源と同じMIDI信号で音域をカバーす る2オクターブの24音階からなる信号 の全ての組み合わせ 教師基底 : 100, その他の基底 : 50 実験的に調整して定めた値 従来手法のSNMFと提案手法PSNMF • 評価値はSDRを用いる [Vincent, 2006] – 分離した目的音の音質や分離度合を含む総合的な品質の尺度 – 値が大きい方が良い 26

27.

実験結果: 2音源混合 • 全12パターンの平均評価値を算出 16 16 14 14 8 従来 SNMF 6 16 14 12 12 10 10 SDR [dB] SDR [dB] 10 PSNMF PSNMF (直交化) (距離最大化) SDR [dB] 12 PSNMF PSNMF (直交化) (距離最大化) 8 6 従来 SNMF 従来 8 SNMF 6 4 4 2 2 2 0 0 0 0 • 全ての 1 2 PSNMF PSNMF (距離最大化) (直交化) 4 0 1 2 0 1 2 において従来手法から大きく改善された – 基底共有問題を防ぐことができたため – 直交化罰則と距離最大化罰則に大きな差はない 27

28.

実験結果: 4音源混合 14 14 12 12 6 14 PSNMF PSNMF (直交化) (距離最大化) 10 従来 8 SNMF 6 PSNMF PSNMF (距離最大化) (直交化) 10 従来 8 SNMF 12 SDR [dB] PSNMF PSNMF 10 (直交化) (距離最大化) 従来 8 SNMF SDR [dB] SDR [dB] • 全4パターンの平均評価値を算出 6 4 4 4 2 2 2 0 0 0 0 1 2 0 1 2 0 1 2 • 2音源混合と同様に大きく改善された 28

29.

直交化PSNMFによる分離例 (Cello と Oboe) 従来手法 SNMFで 分離 混合信号 提案手法 直交化 PSNMF で分離 目的音のみ 29

30.

まとめ • 従来の教師ありNMFによる音源分離では,教師基底と 同じスペクトルがその他の基底に現れる基底共有問題 があった • その他の基底が教師基底とできるだけ無相関となるよう に最適化する罰則条件付き教師ありNMF (PSNMF) を 提案 – 基底直交化罰則条件と基底間距離最大化罰則条件を提案 • 従来手法と比較して高い精度で音源分離を達成 30