155 Views
March 19, 15
スライド概要
Presented at IEICE EA conference (domestic conference)
Daichi Kitamura, Hiroshi Saruwatari, Kiyohiro Shikano, Kazunobu Kondo, Yu Takahashi, "Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization," IEICE technical Report, EA2013-14, vol.113, no.27, pp.79-84, Okayama, May 2013.
http://d-kitamura.net/links_en.html
Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization 超解像に基づく教師あり非負値行列因子分解の 最適距離規範に関する検討 奈良先端科学技術大学院大学 北村大地 猿渡洋 鹿野清宏 ヤマハ株式会社 近藤多伸 高橋祐
研究背景 • 複数の楽器音が多重に混合された音楽信号 から,楽器音を分離・抽出 音楽信号分解 • 応用例 – ユーザが好み応じて各楽器音を編集 – 音楽信号の自動採譜 – 音の拡張現実 (AR) 等 2
研究背景 • 非負値行列因子分解 [Lee, et al., 1999] • データのスパース性,重ね合わせ表現を考慮 • 効率的な乗法型更新式 • 画像処理,信号処理等様々な分野への応用 3
… Frequency [Hz] Nonnegative Matrix Factorization (NMF) … Time [sec] 頻出スペクトル … … 各スペクトルの タイミングと音量 4
… Frequency [Hz] Nonnegative Matrix Factorization (NMF) … スペクトル基底行列 Time [sec] … … アクティベーション行列 5
NMF の目的関数 • NMF では,分解行列因子の と を最適 化するための目的関数が距離関数として与 えられる : 任意の距離関数 • この距離関数はデータや分解する目的に応 じて使い分けられる ex.) – 音源分離: 一般化KLダイバージェンス – 自動採譜: 板倉-斉藤擬距離 6
-divergence について • 一般化距離関数 -divergence [Eguchi, et al., 2001] : ユークリッド距離 : 一般化KLダイバージェンス : 板倉-斉藤擬距離 スパース性が重視 された距離尺度に 7
-divergence について • における 2 25 4 3 2 1 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x が正 (=1) 20 15 10 5 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 (=2) 12 EUC-distance (=0) KL-divergence IS-divergence 5x10 のグラフ 10 8 6 4 2 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x y-x 入力変数 がデータ より大きい 板倉-斉藤擬距離やKL-divergenceでは大きな距離値に が負 入力変数 がデータ より小さい 板倉-斉藤擬距離やKL-divergenceでは小さな距離値に 8
-divergence について • における 2 25 4 3 2 1 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 15 10 5 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x 10 8 6 4 2 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 0 -2 -4 -6 -8 -10 0 y-x Amplitude [dB] y-x (=2) 12 20 Amplitude [dB] 0 -2 -4 -6 -8 -10 0 (=1) EUC-distance (=0) KL-divergence IS-divergence 5x10 のグラフ 1 2 3 4 Frequency [kHz] 5 スパース性: 強 1 2 3 4 Frequency [kHz] スパース性: 弱 5 9
-divergence について • における のグラフ 97 2 -divergence -divergence -divergence 5x10 9x10 100 (=100) (=3) (=4) 8 7 80 6 60 5 4 40 3 2 20 1 0 0 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x y-x y-x さらに を大きくすると,入力変数 とデータ を 入れ替えたような性質になる 10
-divergence規範NMF [Nakano, et al., 2010] • -divergence の全ての において収束性が 保障された更新式の導出 はそれぞれ の要素 11
Penalized Supervised NMF (PSNMF) [Yagi, et al., 2012] • 分離する楽器の教師音を用いる手法 学習プロセス 目的の楽器の教師音を 用いて学習した基底 分離プロセス 教師基底 は を固定して を構成 となるべく無相関となるように求める 12
Penalized Supervised NMF (PSNMF) [Yagi, et al., 2012] • 分離する楽器の教師音を用いる手法 学習プロセス 目的の楽器の教師音を 用いて学習した基底 分離プロセス 教師基底 を固定して を構成 から再構成した スペクトログラムが分離結果 13
Penalized Supervised NMF (PSNMF) [Yagi, et al., 2012] • PSNMF の問題点 – 混合された音源数 (楽器の種類数) が 4 つ以上 のように多くなると分離精度が低下 • 原因 – 様々な楽器の間で類似したスペクトルが現れる – 学習基底の重ね合わせにより別の楽器のスペク トルを表現してしまう 14
方位クラスタリング [Miyabe, et al., 2009] • ステレオ信号を対象とした方位分解手法 • チャネル間の定位情報 (振幅差と位相差) を 用いてクラスタリング L R L-ch の入力信号 :音源成分 :空間代表ベクトル R-ch の入力信号 15
クラスタリングによるバイナリマスクの生成 • ハードクラスタリングは完全スパース性を仮定 • スペクトログラムのグリッドが方位クラスタに属 するか否かを示すバイナリマスクが生成 分解されたクラスタ 周波数 周波数 バイナリマスク 周波数 入力信号 1 0 0 0 0 0 0 0 1 1 0 0 1 1 1 0 0 0 0 0 0 0 1 0 1 1 0 1 1 0 0 0 0 0 0 1 1 1 0 1 1 0 : 目的楽音成分 : 不要音成分 時間 時間 時間 :アダマール積 (要素積) 16
方位クラスタリングの問題点 • 問題点 – 実際には完全スパース性が成り立たない為,クラ スタリング誤りによる人工的な歪みが生じる – 同一方位にある音源の分解はできない L 40 Amplitude [dB] 周波数 分解されたクラスタ R 20 0 -20 時間 -40 0 200 400 600 Frequency [Hz] 800 1000 17
Multichannel NMF [Ozerov, et al., 2010] [Sawada, et al., 2012] • NMF をマルチチャネル信号へと拡張 – チャネル間の位相情報も利用して信号分解 • 方位と調波構造を統一してモデル化し1つの コスト関数で最適化 • 問題点 – 1つのコスト関数で多くの変数を最適化しようとす るため,非常に困難な推定問題 – 初期値依存性が極端に強く,頑健に動作させるこ とが難しい 18
従来手法のまとめ • PSNMF – モノラル信号が対象 – 教師あり分解 – 混合楽器数が増加すると分離精度が低下 • 方位クラスタリング – マルチチャネル信号が対象 – 人工的な歪みが発生 – 同一方位の音源は分解できない • Multichannel NMF – マルチチャネル信号が対象 – 初期値依存性が強く,頑健性に欠ける 19
提案手法 • マルチチャネル信号を対象として高精度かつ 頑健に動作する教師あり信号分解手法 – 前段に方位クラスタリングによる方位分解 – 分解された目的方位クラスタに対して教師あり NMF を適用し目的楽器音を分離 L R 方位クラスタリング 教師あり NMF – 方位分解と調波構造による音源分離のそれぞれ に対して適切な手法を用いる分割統治法 20
方位分解と教師あり NMF のハイブリッド手法 • 後段の教師あり NMF について 周波数 周波数 周波数 1 0 0 0 0 0 0 0 1 1 0 0 1 1 1 0 0 0 0 0 0 40 Amplitude [dB] – 方位クラスタリングのバイナリマ スクによってスペクトログラムの 解像度が低下 – 通常の PSNMF を後段に接続す ると,歪みが発生 20 0 -20 -40 0 200 400 600 Frequency [Hz] 800 1000 : 欠落 0 1 0 1 1 0 1 1 0 0 0 0 0 0 1 1 1 0 1 1 0 : 目的楽音成分 : 不要音成分 時間 時間 時間 21
方位分解と教師あり NMF のハイブリッド手法 • 超解像に基づく教師あり NMF 周波数 周波数 周波数 – 欠落を観測できなかった成分として NMF の誤差 関数から省く – 観測可能な成分のみを考慮し,表現できる教師基 底をフィッティングさせる – 欠落成分は教師基底によって外挿される (超解像) 1 0 0 0 0 0 0 0 1 1 0 0 1 1 1 0 0 0 0 0 0 : 欠落 0 1 0 1 1 0 1 1 0 0 0 0 0 0 1 1 1 0 1 1 0 : 目的楽音成分 : 不要音成分 時間 時間 目的音成分の穴を NMF の誤差関数から省く 時間 22
方位分解と教師あり NMF のハイブリッド手法 • ハイブリッド手法の処理の流れ 音源成分 目的音成分 方位 23
方位分解と教師あり NMF のハイブリッド手法 • ハイブリッド手法の処理の流れ 目的方位成分 音源成分 目的音成分 音源成分 方位 目的成分 の欠落 方位 24
方位分解と教師あり NMF のハイブリッド手法 音源成分 • ハイブリッド手法の処理の流れ 目的成分 の欠落 方位 25
方位分解と教師あり NMF のハイブリッド手法 音源成分 • ハイブリッド手法の処理の流れ 目的成分 の欠落 音源成分 方位 外挿された 目的成分 方位 26
方位分解と教師あり NMF のハイブリッド手法 • 超解像における正則化の必要性 – あるフレームにおいて観測可能な成分が極端に少 ない場合,いかなる教師基底もマッチングできる – 間違った教師基底が選択されてスペクトルが外挿 される可能性がある 欠落グリッド数が多く (約99%が穴), 外挿誤りを防ぐための 正則化が必要 Frequency [kHz] 外挿誤りが生じたフレーム 4 3 2 1 0 0 1 2 3 Time [s] 4 27
方位分解と教師あり NMF のハイブリッド手法 • ノルム最小化による正則化 – 事前仮定を導入 穴が極端に多いフレーム 事前仮定 本来目的音成分が 存在していなかった – それぞれのフレームにおいて,穴の数が多いほど ノルムが小さくなる (出力音が小さくなる) 教師基 底を選択してフィッティング 28
方位分解と教師あり NMF のハイブリッド手法 • 超解像に基づく教師あり NMF コスト関数 – – – – は目的楽器の教師基底 は方位クラスタリングのバイナリインデックス はインデックス (0, 1) の論理反転 はそれぞれ直交化項,正則化項の重み係数 29
方位分解と教師あり NMF のハイブリッド手法 • 超解像に基づく教師あり NMF コスト関数 – – – – は目的楽器の教師基底 は方位クラスタリングのバイナリインデックス はインデックス (0, 1) の論理反転 はそれぞれ直交化項,正則化項の重み係数 距離関数に -divergence を用いた場合の更新式を導出し, 30 超解像に基づく教師あり NMF において最適な距離規範の検討を行う
超解像に基づく教師あり NMF 更新式導出 • 更新式導出は補助関数法を用いる – コスト関数 の上限を与える補助関数を定義 – コスト関数を間接的に最小化 は変数の集合, はバイナリマスクのインデックス行列 の要素 31
超解像に基づく教師あり NMF 更新式導出 • コスト関数 (上式) の第一項は定数 • 第二項,第三項,第四項は の値に応じて凸 関数 (convex) か凹関数 (concave) になる concave convex convex concave concave convex convex convex convex 32
超解像に基づく教師あり NMF 更新式導出 • 各項の上限関数は以下の不等式を用いて設 計できる – 凸関数: Jensen の不等式 : 凸関数 – 凹関数: 接線不等式 : 凹関数 33
超解像に基づく教師あり NMF 更新式 • 補助関数を各変数で微分し,補助変数の等 号成立条件を代入することで更新式を導出 • 超解像に基づく教師あり NMF 更新式 34
超解像に基づく教師あり NMF 実験条件 目的音信号 (MIDI) フルート,オーボエ,ピアノ,トロンボーン 観測信号 (MIDI) 4 種類の楽器の等パワー混合信号 教師信号 (MIDI) 各楽器音の半音階で 2 オクターブ上昇する 24 音 方位クラスタ数 基底数 NMF の更新回数 重み係数 m , l 3 教師基底: 100, その他の基底: 30 教師基底学習時: 500, 分離時: 400 評価値が最も高くなる値を実験的に求める 距離規範 (教師基底学習時と分離時では統一) 比較手法 PSNMF単体 超解像に基づく教師あり NMF を用いたハイブリッド手法 客観評価尺度 Signal to distortion ratio (SDR: 目的音の品質), Source to interference ratio (SIR: 分離度合), Sources to artifact ratio (SAR: 処理歪みの少なさ) 35
超解像に基づく教師あり NMF 実験条件 • 入力信号 – 左右の音源の定位角 度は15 , 40 を用意 – 目的音源は常に中央 (1番) に定位 – 4 種の目的音源のそれ ぞれに対して非目的音 の配置が 3 パターン – 計 12 パターンの音源 に分離実験を行った評 価値の平均 Left 2 Center 4 1 Right 3 36
超解像に基づく教師あり NMF 実験条件 • 比較手法 PSNMF 超解像に基づくハイブリッド手法 Input stereo signal Input stereo signal L-ch L-ch R-ch R-ch STFT STFT Mixing Directional clustering Monaural component Index of center cluster Center component L-ch PSNMF ISTFT Extracted signal 入力信号をモノラルにミックスダウン R-ch Superresolutionbased SNMF Superresolutionbased SNMF ISTFT ISTFT Mixing Extracted signal 37
超解像に基づく教師あり NMF 実験結果 • の入力信号の結果 14 25 PSNMF Superresolution-based SNMF 12 10 PSNMF Superresolution-based SNMF 20 PSNMF Superresolution-based SNMF 8 8 6 SAR [dB] SIR [dB] SDR [dB] 10 15 10 6 4 4 0 2 5 2 0 1 2 3 Value of 4 0 0 1 2 3 Value of • 従来の PSNMF では が最も良い分離精度 4 0 0 1 2 3 Value of 4 (KL-divergence) – 従来の NMF を用いた音源分離の研究で経験的 38 に知られていた事実
超解像に基づく教師あり NMF 実験結果 • の入力信号の結果 14 25 PSNMF Superresolution-based SNMF 12 10 PSNMF Superresolution-based SNMF 20 PSNMF Superresolution-based SNMF 8 8 6 SAR [dB] SIR [dB] SDR [dB] 10 15 10 6 4 4 0 2 5 2 0 1 2 3 Value of 4 0 0 1 2 3 Value of • 従来の PSNMF では が最も良い分離精度 4 0 0 1 2 3 Value of 4 (KL-divergence) – 従来の NMF を用いた音源分離の研究で経験的 39 に知られていた事実
超解像に基づく教師あり NMF 実験結果 • の入力信号の結果 14 25 PSNMF Superresolution-based SNMF 12 10 PSNMF Superresolution-based SNMF 20 PSNMF Superresolution-based SNMF 8 8 6 SAR [dB] SIR [dB] SDR [dB] 10 15 10 6 4 4 0 2 5 2 0 1 2 3 Value of 4 0 0 1 2 3 Value of 4 0 0 1 2 3 Value of 4 • 超解像に基づく教師あり NMF では (EUC-distance) が最も良い分離精度 – 通常の音源分離とは異なる結果に 40
超解像に基づく教師あり NMF 実験結果 • の入力信号の結果 14 25 PSNMF Superresolution-based SNMF 12 10 PSNMF Superresolution-based SNMF 20 PSNMF Superresolution-based SNMF 8 8 6 SAR [dB] SIR [dB] SDR [dB] 10 15 10 6 4 4 5 2 0 • 0 1 2 3 Value of 4 0 2 0 1 2 3 Value of 4 0 0 1 2 3 Value of 4 においても同様の結果となった 41
超解像に基づく教師あり NMF 考察 • 通常の NMF 音源分離 – KL-divergence ( ) が分離精度が良い • 今回の PSNMF の結果や多くの論文で示されている • 超解像に基づく教師あり NMF – EUC-distance ( ) が良い結果となった • 超解像処理を用いる NMF の最適な距離規範 は EUC-distance といえる 42
超解像に基づく教師あり NMF 考察 • の値が 0 に近くなるほど – 事前学習時 Amplitude [dB] 0 -2 -4 -6 -8 -10 0 Amplitude • 教師基底はピークとスパース性を重視 • アクティベーションのスパース性から局所的 (アタック部, サスティン部等) な特徴を良く捉えた基底が作られる Decay 1 2 3 4 Frequency [kHz] 5 Attack Sustain Release Time 43
超解像に基づく教師あり NMF 考察 • の値が大きくなるほど – 事前学習時 Amplitude [dB] 0 -2 -4 -6 -8 -10 0 Amplitude • 教師基底はそれほどスパースにならず,少し滑らか • より大局的な特徴を捉えた教師基底が学習される Decay 1 2 3 4 Frequency [kHz] 5 Attack Sustain Release Time 44
超解像に基づく教師あり NMF 考察 • 超解像に基づく教師あり NMF – 分離時 • 見えている成分のみで教師基底のフィッティングを行わ なければならない • 教師基底がスパースで局所的な特徴を捉えた教師基 底は外挿しにくい • 逆に少し滑らかで大局的な表現が可能な教師基底の 方が外挿しやすい 0 -2 -4 -6 -8 -10 0 Amplitude [dB] Amplitude [dB] 0 -2 -4 -6 -8 -10 0 1 2 3 4 Frequency [kHz] 5 1 2 3 4 Frequency [kHz] 5 45
超解像に基づく教師あり NMF 考察 • 超解像に基づく教師あり NMF – 分離時 性能 外挿能力 総合的な性能 分離精度 0 -2 -4 -6 -8 -10 0 Amplitude [dB] Amplitude [dB] 0 -2 -4 -6 -8 -10 0 1 2 3 4 Frequency [kHz] スパース性: 強 5 1 2 3 4 Frequency [kHz] 5 スパース性: 弱 46
まとめと今後 • ハイブリッド音源分離手法である超解像に基 づく教師あり NMF において -divergenceを 用いた更新式を導出 • 超解像処理を含む音源分離 NMF では EUC-distance が最適な距離規範であること を示した • バイノーラル信号に対する分離精度の確認 • 方位クラスタリング以外の方位分解手法を用 いた場合の実験 47