Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

155 Views

March 19, 15

スライド概要

Presented at IEICE EA conference (domestic conference)
Daichi Kitamura, Hiroshi Saruwatari, Kiyohiro Shikano, Kazunobu Kondo, Yu Takahashi, "Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization," IEICE technical Report, EA2013-14, vol.113, no.27, pp.79-84, Okayama, May 2013.

profile-image

http://d-kitamura.net/links_en.html

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization 超解像に基づく教師あり非負値行列因子分解の 最適距離規範に関する検討 奈良先端科学技術大学院大学 北村大地 猿渡洋 鹿野清宏 ヤマハ株式会社 近藤多伸 高橋祐

2.

研究背景 • 複数の楽器音が多重に混合された音楽信号 から,楽器音を分離・抽出 音楽信号分解 • 応用例 – ユーザが好み応じて各楽器音を編集 – 音楽信号の自動採譜 – 音の拡張現実 (AR) 等 2

3.

研究背景 • 非負値行列因子分解 [Lee, et al., 1999] • データのスパース性,重ね合わせ表現を考慮 • 効率的な乗法型更新式 • 画像処理,信号処理等様々な分野への応用 3

4.

… Frequency [Hz] Nonnegative Matrix Factorization (NMF) … Time [sec] 頻出スペクトル … … 各スペクトルの タイミングと音量 4

5.

… Frequency [Hz] Nonnegative Matrix Factorization (NMF) … スペクトル基底行列 Time [sec] … … アクティベーション行列 5

6.

NMF の目的関数 • NMF では,分解行列因子の と を最適 化するための目的関数が距離関数として与 えられる : 任意の距離関数 • この距離関数はデータや分解する目的に応 じて使い分けられる ex.) – 音源分離: 一般化KLダイバージェンス – 自動採譜: 板倉-斉藤擬距離 6

7.

-divergence について • 一般化距離関数 -divergence [Eguchi, et al., 2001] : ユークリッド距離 : 一般化KLダイバージェンス : 板倉-斉藤擬距離 スパース性が重視 された距離尺度に 7

8.

-divergence について • における 2 25 4 3 2 1 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x が正 (=1) 20 15 10 5 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 (=2) 12 EUC-distance (=0) KL-divergence IS-divergence 5x10 のグラフ 10 8 6 4 2 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x y-x 入力変数 がデータ より大きい 板倉-斉藤擬距離やKL-divergenceでは大きな距離値に が負 入力変数 がデータ より小さい 板倉-斉藤擬距離やKL-divergenceでは小さな距離値に 8

9.

-divergence について • における 2 25 4 3 2 1 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 15 10 5 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x 10 8 6 4 2 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 0 -2 -4 -6 -8 -10 0 y-x Amplitude [dB] y-x (=2) 12 20 Amplitude [dB] 0 -2 -4 -6 -8 -10 0 (=1) EUC-distance (=0) KL-divergence IS-divergence 5x10 のグラフ 1 2 3 4 Frequency [kHz] 5 スパース性: 強 1 2 3 4 Frequency [kHz] スパース性: 弱 5 9

10.

-divergence について • における のグラフ 97 2 -divergence -divergence -divergence 5x10 9x10 100 (=100) (=3) (=4) 8 7 80 6 60 5 4 40 3 2 20 1 0 0 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x y-x y-x さらに を大きくすると,入力変数 とデータ を 入れ替えたような性質になる 10

11.

-divergence規範NMF [Nakano, et al., 2010] • -divergence の全ての において収束性が 保障された更新式の導出 はそれぞれ の要素 11

12.

Penalized Supervised NMF (PSNMF) [Yagi, et al., 2012] • 分離する楽器の教師音を用いる手法 学習プロセス 目的の楽器の教師音を 用いて学習した基底 分離プロセス 教師基底 は を固定して を構成 となるべく無相関となるように求める 12

13.

Penalized Supervised NMF (PSNMF) [Yagi, et al., 2012] • 分離する楽器の教師音を用いる手法 学習プロセス 目的の楽器の教師音を 用いて学習した基底 分離プロセス 教師基底 を固定して を構成 から再構成した スペクトログラムが分離結果 13

14.

Penalized Supervised NMF (PSNMF) [Yagi, et al., 2012] • PSNMF の問題点 – 混合された音源数 (楽器の種類数) が 4 つ以上 のように多くなると分離精度が低下 • 原因 – 様々な楽器の間で類似したスペクトルが現れる – 学習基底の重ね合わせにより別の楽器のスペク トルを表現してしまう 14

15.

方位クラスタリング [Miyabe, et al., 2009] • ステレオ信号を対象とした方位分解手法 • チャネル間の定位情報 (振幅差と位相差) を 用いてクラスタリング L R L-ch の入力信号 :音源成分 :空間代表ベクトル R-ch の入力信号 15

16.

クラスタリングによるバイナリマスクの生成 • ハードクラスタリングは完全スパース性を仮定 • スペクトログラムのグリッドが方位クラスタに属 するか否かを示すバイナリマスクが生成 分解されたクラスタ 周波数 周波数 バイナリマスク 周波数 入力信号 1 0 0 0 0 0 0 0 1 1 0 0 1 1 1 0 0 0 0 0 0 0 1 0 1 1 0 1 1 0 0 0 0 0 0 1 1 1 0 1 1 0 : 目的楽音成分 : 不要音成分 時間 時間 時間 :アダマール積 (要素積) 16

17.

方位クラスタリングの問題点 • 問題点 – 実際には完全スパース性が成り立たない為,クラ スタリング誤りによる人工的な歪みが生じる – 同一方位にある音源の分解はできない L 40 Amplitude [dB] 周波数 分解されたクラスタ R 20 0 -20 時間 -40 0 200 400 600 Frequency [Hz] 800 1000 17

18.

Multichannel NMF [Ozerov, et al., 2010] [Sawada, et al., 2012] • NMF をマルチチャネル信号へと拡張 – チャネル間の位相情報も利用して信号分解 • 方位と調波構造を統一してモデル化し1つの コスト関数で最適化 • 問題点 – 1つのコスト関数で多くの変数を最適化しようとす るため,非常に困難な推定問題 – 初期値依存性が極端に強く,頑健に動作させるこ とが難しい 18

19.

従来手法のまとめ • PSNMF – モノラル信号が対象 – 教師あり分解 – 混合楽器数が増加すると分離精度が低下 • 方位クラスタリング – マルチチャネル信号が対象 – 人工的な歪みが発生 – 同一方位の音源は分解できない • Multichannel NMF – マルチチャネル信号が対象 – 初期値依存性が強く,頑健性に欠ける 19

20.

提案手法 • マルチチャネル信号を対象として高精度かつ 頑健に動作する教師あり信号分解手法 – 前段に方位クラスタリングによる方位分解 – 分解された目的方位クラスタに対して教師あり NMF を適用し目的楽器音を分離 L R 方位クラスタリング 教師あり NMF – 方位分解と調波構造による音源分離のそれぞれ に対して適切な手法を用いる分割統治法 20

21.

方位分解と教師あり NMF のハイブリッド手法 • 後段の教師あり NMF について 周波数 周波数 周波数 1 0 0 0 0 0 0 0 1 1 0 0 1 1 1 0 0 0 0 0 0 40 Amplitude [dB] – 方位クラスタリングのバイナリマ スクによってスペクトログラムの 解像度が低下 – 通常の PSNMF を後段に接続す ると,歪みが発生 20 0 -20 -40 0 200 400 600 Frequency [Hz] 800 1000 : 欠落 0 1 0 1 1 0 1 1 0 0 0 0 0 0 1 1 1 0 1 1 0 : 目的楽音成分 : 不要音成分 時間 時間 時間 21

22.

方位分解と教師あり NMF のハイブリッド手法 • 超解像に基づく教師あり NMF 周波数 周波数 周波数 – 欠落を観測できなかった成分として NMF の誤差 関数から省く – 観測可能な成分のみを考慮し,表現できる教師基 底をフィッティングさせる – 欠落成分は教師基底によって外挿される (超解像) 1 0 0 0 0 0 0 0 1 1 0 0 1 1 1 0 0 0 0 0 0 : 欠落 0 1 0 1 1 0 1 1 0 0 0 0 0 0 1 1 1 0 1 1 0 : 目的楽音成分 : 不要音成分 時間 時間 目的音成分の穴を NMF の誤差関数から省く 時間 22

23.

方位分解と教師あり NMF のハイブリッド手法 • ハイブリッド手法の処理の流れ 音源成分 目的音成分 方位 23

24.

方位分解と教師あり NMF のハイブリッド手法 • ハイブリッド手法の処理の流れ 目的方位成分 音源成分 目的音成分 音源成分 方位 目的成分 の欠落 方位 24

25.

方位分解と教師あり NMF のハイブリッド手法 音源成分 • ハイブリッド手法の処理の流れ 目的成分 の欠落 方位 25

26.

方位分解と教師あり NMF のハイブリッド手法 音源成分 • ハイブリッド手法の処理の流れ 目的成分 の欠落 音源成分 方位 外挿された 目的成分 方位 26

27.

方位分解と教師あり NMF のハイブリッド手法 • 超解像における正則化の必要性 – あるフレームにおいて観測可能な成分が極端に少 ない場合,いかなる教師基底もマッチングできる – 間違った教師基底が選択されてスペクトルが外挿 される可能性がある 欠落グリッド数が多く (約99%が穴), 外挿誤りを防ぐための 正則化が必要 Frequency [kHz] 外挿誤りが生じたフレーム 4 3 2 1 0 0 1 2 3 Time [s] 4 27

28.

方位分解と教師あり NMF のハイブリッド手法 • ノルム最小化による正則化 – 事前仮定を導入 穴が極端に多いフレーム 事前仮定 本来目的音成分が 存在していなかった – それぞれのフレームにおいて,穴の数が多いほど ノルムが小さくなる (出力音が小さくなる) 教師基 底を選択してフィッティング 28

29.

方位分解と教師あり NMF のハイブリッド手法 • 超解像に基づく教師あり NMF コスト関数 – – – – は目的楽器の教師基底 は方位クラスタリングのバイナリインデックス はインデックス (0, 1) の論理反転 はそれぞれ直交化項,正則化項の重み係数 29

30.

方位分解と教師あり NMF のハイブリッド手法 • 超解像に基づく教師あり NMF コスト関数 – – – – は目的楽器の教師基底 は方位クラスタリングのバイナリインデックス はインデックス (0, 1) の論理反転 はそれぞれ直交化項,正則化項の重み係数 距離関数に  -divergence を用いた場合の更新式を導出し, 30 超解像に基づく教師あり NMF において最適な距離規範の検討を行う

31.

超解像に基づく教師あり NMF 更新式導出 • 更新式導出は補助関数法を用いる – コスト関数 の上限を与える補助関数を定義 – コスト関数を間接的に最小化 は変数の集合, はバイナリマスクのインデックス行列 の要素 31

32.

超解像に基づく教師あり NMF 更新式導出 • コスト関数 (上式) の第一項は定数 • 第二項,第三項,第四項は の値に応じて凸 関数 (convex) か凹関数 (concave) になる concave convex convex concave concave convex convex convex convex 32

33.

超解像に基づく教師あり NMF 更新式導出 • 各項の上限関数は以下の不等式を用いて設 計できる – 凸関数: Jensen の不等式 : 凸関数 – 凹関数: 接線不等式 : 凹関数 33

34.

超解像に基づく教師あり NMF 更新式 • 補助関数を各変数で微分し,補助変数の等 号成立条件を代入することで更新式を導出 • 超解像に基づく教師あり NMF 更新式 34

35.

超解像に基づく教師あり NMF 実験条件 目的音信号 (MIDI) フルート,オーボエ,ピアノ,トロンボーン 観測信号 (MIDI) 4 種類の楽器の等パワー混合信号 教師信号 (MIDI) 各楽器音の半音階で 2 オクターブ上昇する 24 音 方位クラスタ数 基底数 NMF の更新回数 重み係数 m , l 3 教師基底: 100, その他の基底: 30 教師基底学習時: 500, 分離時: 400 評価値が最も高くなる値を実験的に求める 距離規範 (教師基底学習時と分離時では統一) 比較手法 PSNMF単体 超解像に基づく教師あり NMF を用いたハイブリッド手法 客観評価尺度 Signal to distortion ratio (SDR: 目的音の品質), Source to interference ratio (SIR: 分離度合), Sources to artifact ratio (SAR: 処理歪みの少なさ) 35

36.

超解像に基づく教師あり NMF 実験条件 • 入力信号 – 左右の音源の定位角 度は15 , 40 を用意 – 目的音源は常に中央 (1番) に定位 – 4 種の目的音源のそれ ぞれに対して非目的音 の配置が 3 パターン – 計 12 パターンの音源 に分離実験を行った評 価値の平均 Left 2 Center 4 1 Right 3 36

37.

超解像に基づく教師あり NMF 実験条件 • 比較手法 PSNMF 超解像に基づくハイブリッド手法 Input stereo signal Input stereo signal L-ch L-ch R-ch R-ch STFT STFT Mixing Directional clustering Monaural component Index of center cluster Center component L-ch PSNMF ISTFT Extracted signal 入力信号をモノラルにミックスダウン R-ch Superresolutionbased SNMF Superresolutionbased SNMF ISTFT ISTFT Mixing Extracted signal 37

38.

超解像に基づく教師あり NMF 実験結果 • の入力信号の結果 14 25 PSNMF Superresolution-based SNMF 12 10 PSNMF Superresolution-based SNMF 20 PSNMF Superresolution-based SNMF 8 8 6 SAR [dB] SIR [dB] SDR [dB] 10 15 10 6 4 4 0 2 5 2 0 1 2 3 Value of  4 0 0 1 2 3 Value of  • 従来の PSNMF では が最も良い分離精度 4 0 0 1 2 3 Value of  4 (KL-divergence) – 従来の NMF を用いた音源分離の研究で経験的 38 に知られていた事実

39.

超解像に基づく教師あり NMF 実験結果 • の入力信号の結果 14 25 PSNMF Superresolution-based SNMF 12 10 PSNMF Superresolution-based SNMF 20 PSNMF Superresolution-based SNMF 8 8 6 SAR [dB] SIR [dB] SDR [dB] 10 15 10 6 4 4 0 2 5 2 0 1 2 3 Value of  4 0 0 1 2 3 Value of  • 従来の PSNMF では が最も良い分離精度 4 0 0 1 2 3 Value of  4 (KL-divergence) – 従来の NMF を用いた音源分離の研究で経験的 39 に知られていた事実

40.

超解像に基づく教師あり NMF 実験結果 • の入力信号の結果 14 25 PSNMF Superresolution-based SNMF 12 10 PSNMF Superresolution-based SNMF 20 PSNMF Superresolution-based SNMF 8 8 6 SAR [dB] SIR [dB] SDR [dB] 10 15 10 6 4 4 0 2 5 2 0 1 2 3 Value of  4 0 0 1 2 3 Value of  4 0 0 1 2 3 Value of  4 • 超解像に基づく教師あり NMF では (EUC-distance) が最も良い分離精度 – 通常の音源分離とは異なる結果に 40

41.

超解像に基づく教師あり NMF 実験結果 • の入力信号の結果 14 25 PSNMF Superresolution-based SNMF 12 10 PSNMF Superresolution-based SNMF 20 PSNMF Superresolution-based SNMF 8 8 6 SAR [dB] SIR [dB] SDR [dB] 10 15 10 6 4 4 5 2 0 • 0 1 2 3 Value of  4 0 2 0 1 2 3 Value of  4 0 0 1 2 3 Value of  4 においても同様の結果となった 41

42.

超解像に基づく教師あり NMF 考察 • 通常の NMF 音源分離 – KL-divergence ( ) が分離精度が良い • 今回の PSNMF の結果や多くの論文で示されている • 超解像に基づく教師あり NMF – EUC-distance ( ) が良い結果となった • 超解像処理を用いる NMF の最適な距離規範 は EUC-distance といえる 42

43.

超解像に基づく教師あり NMF 考察 • の値が 0 に近くなるほど – 事前学習時 Amplitude [dB] 0 -2 -4 -6 -8 -10 0 Amplitude • 教師基底はピークとスパース性を重視 • アクティベーションのスパース性から局所的 (アタック部, サスティン部等) な特徴を良く捉えた基底が作られる Decay 1 2 3 4 Frequency [kHz] 5 Attack Sustain Release Time 43

44.

超解像に基づく教師あり NMF 考察 • の値が大きくなるほど – 事前学習時 Amplitude [dB] 0 -2 -4 -6 -8 -10 0 Amplitude • 教師基底はそれほどスパースにならず,少し滑らか • より大局的な特徴を捉えた教師基底が学習される Decay 1 2 3 4 Frequency [kHz] 5 Attack Sustain Release Time 44

45.

超解像に基づく教師あり NMF 考察 • 超解像に基づく教師あり NMF – 分離時 • 見えている成分のみで教師基底のフィッティングを行わ なければならない • 教師基底がスパースで局所的な特徴を捉えた教師基 底は外挿しにくい • 逆に少し滑らかで大局的な表現が可能な教師基底の 方が外挿しやすい 0 -2 -4 -6 -8 -10 0 Amplitude [dB] Amplitude [dB] 0 -2 -4 -6 -8 -10 0 1 2 3 4 Frequency [kHz] 5 1 2 3 4 Frequency [kHz] 5 45

46.

超解像に基づく教師あり NMF 考察 • 超解像に基づく教師あり NMF – 分離時 性能 外挿能力 総合的な性能 分離精度 0 -2 -4 -6 -8 -10 0 Amplitude [dB] Amplitude [dB] 0 -2 -4 -6 -8 -10 0 1 2 3 4 Frequency [kHz] スパース性: 強 5 1 2 3 4 Frequency [kHz] 5 スパース性: 弱 46

47.

まとめと今後 • ハイブリッド音源分離手法である超解像に基 づく教師あり NMF において -divergenceを 用いた更新式を導出 • 超解像処理を含む音源分離 NMF では EUC-distance が最適な距離規範であること を示した • バイノーラル信号に対する分離精度の確認 • 方位クラスタリング以外の方位分解手法を用 いた場合の実験 47