Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization (in Japanese)

296 Views

March 18, 15

#nmf #source separation #music #direction of arrivals #音源分離 #非負値行列因子分解 #教師ありNMF #超解像型NMF #音響処理

スライド概要

Presented at 2013 Autumn Meeting of Acoustical Society of Japan (domestic conference)
Daichi Kitamura, Hiroshi Saruwatari, Satoshi Nakamura, Kazunobu Kondo, Yu Takahashi, "Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization," Proceedings of 2013 Autumn Meeting of Acoustical Society of Japan, 1-1-6, pp.583-586, Aichi, September 2013 (学生優秀発表賞受賞).

Daichi Kitamura

@d-kitamura

スライド一覧

http://d-kitamura.net/links_en.html

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

音源分離技術の基礎と応用～音源分離ﾁｮｯﾄﾜｶﾙになるための手引き～

source separation nmf music bss ica ilrma direction of arrivals deep neural network audio signal processing deep learning

Daichi Kitamura 188.4K

音源分離における音響モデリング（Acoustic modeling in audio source separation）

nmf source separation music bss ica ilrma optimization audio signal processing model

Daichi Kitamura 63.2K

Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法（Jupyter notebookも）

python install jupyter visual studio code pipenv

Daichi Kitamura 46.3K

独立低ランク行列分析に基づく音源分離とその発展（Audio source separation based on independent low-rank matrix analysis and its extensions）

nmf source separation music bss ica ilrma idlma deep neural network spectrogram consistency

Daichi Kitamura 43.5K

独立低ランク行列分析に基づくブラインド音源分離（Blind source separation based on independent low-rank matrix analysis）

nmf source separation music bss ica ilrma

Daichi Kitamura 16K

音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sound media signal processing and its applications

nmf source separation bss ica

Daichi Kitamura 14.3K

各ページのテキスト

Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization 超解像型非負値行列因子分解における分離性能と外挿能力のトレードオフに基づく最適なダイバージェンスの検討 ☆北村大地, 猿渡洋, 中村哲（奈良先端科学技術大学院大学）高橋祐, 近藤多伸（ヤマハ株式会社）

背景: 非負値行列因子分解による音源分離 • 音源分離: 複数の音源から成る混合音から特定の音源を分離 • 非負値行列因子分解（nonnegative matrix factorization: NMF）[Lee, 2001] Amplitude Frequency Frequency – スパース分解表現による特徴量抽出手法 Time 観測スペクトログラム Time Amplitude アクティベーション行列基底スペクトル行列 Ω: 周波数ビン数 𝑇: 時間フレーム数 𝐾: 基底数 • 一般に各音源毎に基底を選別することは困難 • 目的音源の基底を学習する教師ありNMF [Smaragdis, 2010], [Yagi, 2012] 2

本発表における目的 • 頑健なマルチチャネル信号分離手法として，超解像型教師あり NMF及びそのハイブリッド手法を提案 [Kitamura, 2013] 方位に関する分解 L 超解像型教師ありNMF R ⚫ 超解像型教師ありNMFに関して，コスト関数をパラメトリックに拡張した一般化アルゴリズムを提案する ⚫ 「スパース分解表現」と「教師による超解像処理」が統合された技術において，最適なコスト関数がどのようなメカニズムで決まるかを明らかにする 3

従来法：教師ありNMFによる音源分離 • 分離したい目的音の教師(サンプル)音を事前に学習 • 学習プロセスで教師スペクトル基底（dictionary）を作成 • 分離プロセスで目的音と，非目的音に分離学習プロセス分離目的音の教師音教師音から作成した教師スペクトル基底教師基底を固定し，他の変数を最適化分離プロセス無相関にする罰則条件最適化 4

提案法：超解像型NMF及びハイブリッド手法 • 方位クラスタリング [Araki, 2007], [Miyabe, 2009] – ステレオ信号による方位情報のクラスタリングを用いた分解手法 L R • ハイブリッド手法 [Kitamura, 2013] 方位クラスタリング L ：音源成分：重心ベクトル L-ch amplitude Center cluster Left cluster Right cluster R-ch amplitude 超解像型教師ありNMF R 方位情報を用いた分解スペクトル情報を用いた分解 5

提案法：超解像型NMF及びハイブリッド手法 • 前段: 方位クラスタリング – スペクトログラム上でのハードクラスタリング目的方位成分 1 0 0 0 0 0 0 0 1 1 0 0 1 1 1 0 0 0 0 0 0 0 1 0 1 1 0 1 1 0 0 0 0 0 0 分離された目的クラスタ Frequency 非目的方位成分バイナリマスク Frequency Frequency 入力スペクトログラム : 欠落 1 1 1 0 1 1 0 Time 要素毎の積 Time Time • 後段：超解像型教師ありNMF [Kitamura, 2013] – – – – 前段処理によって生成されるバイナリマスクを用いる欠落したグリッドを無視し，残った成分だけに教師ありNMFを適用欠落した目的音源成分は教師スペクトルによって外挿され復元同一方位に存在する非目的音源成分を分離 6

方位クラスタリング Time Frequency 分離された目的クラスタバイナリマスク : 欠落 Time Frequency 復元された目的成分超解像型教師ありNMF 外挿して復元 Time 教師スペクトル基底目的音源 (a) Input signal Left Frequency of source component 目的方位成分非目的方位成分 Right Center Direction (b) After directional clustering z Left Frequency of source component Frequency 入力スペクトログラム Frequency of source component 提案法：超解像型NMF及びハイブリッド手法 Center Direction Right (c) After superresolutionbased SNMF Left Center Direction 外挿された目的音源成分 Right 7

教師基底外挿における正則化 • 欠落が極端に多いフレームでは外挿誤りを起こす危険がある • 超解像処理としての正則化が必要外挿誤りの例 : 欠落 Time 4 Frequency [kHz] Frequency 分離された目的クラスタ 3 2 1 0 0 1 2 3 Time [s] 4 目的成分がほぼ欠落したフレームフロベニウスノルム最小化による正則化 : それぞれ行列の要素, : フロベニウスノルム : 論理反転, 8

分解モデルとコスト関数分解モデル: 教師スペクトル基底（固定）コスト関数(ユークリッド距離規準): 正則化項 : 論理反転, : それぞれ行列 : 正則化項と罰則項の重み係数, 罰則項の要素, : フロベニウスノルム • 従来は「ユークリッド距離」と「一般化KLダイバージェンス」規準のみが検討されていた 9

10.

コスト関数の一般化一般化コスト関数: 罰則項正則化項 • : -divergence関数 [Eguchi, 2001] – パラメータの値に応じてダイバージェンスが変化 – 特に，の時にユークリッド距離，の時に一般化KLダイバージェンス，の時に板倉-斎藤擬距離に対応 – 振幅ドメインのNMFによる音源分離では，程度が高精度 10

11.

一般化コスト関数に基づく更新式 • コスト関数を最小化することで変数の反復型更新式が得られる • 最小化問題は補助関数法を用いて解くことができる更新式: 11

12.

最適距離規範の確認実験実験条件 • 4つのメロディからなるステレオの混合音源を作成 • 中央に2つ，左右15°に1つずつ音源を配置 • 3種の楽器編成のMIDI信号を用意，計36パターンの平均評価値 Left Center ２ Dataset No. 1 No. 2 No. 3 Melody 1 Oboe Trumpet Horn Melody 2 Midrange Bass Flute Piano Trombone Violin Harpsichord Fagotto Clarinet Piano Cello ４１目的音源 Right ３教師用音源信号目的音源の音域をカバーする2オクターブの24音階 12

13.

最適距離規範の確認実験実験条件 • その他の実験条件観測信号教師信号分解ドメイン基底数重み係数比較手法 3種のデータセット，合計36パターンのステレオMIDI信号目的音源と同じMIDI信号で音域をカバーする2オクターブの24音階からなる信号振幅スペクトログラム教師基底: 100, その他の基底: 30 実験的に調整して定めた値モノラルにミックスダウンした信号に罰則条件付き教師あり NMF (PSNMF)を適用 • NMFコストのダイバージェンスと正則化コストのダイバージェンスのすべての組み合わせ（16通り）で実験を行い，最適なを検討 – は教師基底学習時と超解像時で常に統一 • 評価値はSDR, SIR, SARを用いる [Vincent, 2006] SDR ：分離した目的音の品質総合的な分離精度 SIR ：目的音と非目的音の分離度合 SAR ：一連の処理で生じた歪みの少なさ 13

14.

最適距離規範の確認実験実験結果 • 各手法における評価値の平均を算出 0 Good PSNMF Proposed hybrid method (reg = 0) Proposed hybrid method (reg = 2) 12 8 6 4 15 SAR [dB] SIR [dB] SDR [dB] 8 10 5 2 0 10 20 10 Bad Proposed hybrid method (reg = 1) Proposed hybrid method (reg = 3) 0 1 2 Value of  NMF 3 0 6 4 2 0 1 2 Value of  NMF 3 0 0 1 2 Value of  NMF 3 • 従来の教師ありNMFではが最適だったが，超解像型教師ありNMF及びそのハイブリッド手法ではが最適 – 最適なダイバージェンスがシフトしている • 正則化コストのダイバージェンスは他の値はほとんど差が無いが極端に性能が悪く， 14

15.

最適ダイバージェンスシフトの原因の仮説 • 超解像型教師ありNMFには2つのタスクがある超解像型教師ありNMF 音源の分離教師基底を用いた外挿 • 仮説: 音源分離と基底外挿のそれぞれのタスクにおいて最適な NMFコストのダイバージェンスが異なるのではないか？ • 正味の外挿能力を測る実験目的音源のみの信号成分が欠落した信号バイナリマスク – 正則化コストの復元された信号超解像 NMF は最適値であった1に固定して実験 15

16.

外挿能力の確認実験結果 • 正則化コストのダイバージェンス Good は最適値の1に固定 20 SAR [dB] 15 10 5 Bad 0 0 1 2 3 Value of  NMF 4 • NMFコストのダイバージェンスは1よりも少し高い方が，外挿能力が高くなる • ダイバージェンスが0に近づくと，学習された教師基底がスパースになる傾向がある 0 -2 -4 -6 -8 -10 0 Amplitude [dB] Amplitude [dB] 0 -2 -4 -6 -8 -10 0 1 2 3 4 Frequency [kHz] 5 1 2 3 4 Frequency [kHz] 5 16

17.

ダイバージェンスの違いによる基底の変化 Amplitude [dB] 0 -2 -4 -6 -8 -10 0 Amplitude • 事前学習時においての値が小さいと，教師基底はピークとスパース性が重視され，より局所的な特徴を捉える Decay 1 2 3 4 Frequency [kHz] 5 Attack Sustain Release Time Amplitude [dB] 0 -2 -4 -6 -8 -10 0 Amplitude • 逆に事前学習においての値が大きいと，教師基底は少し滑らかになり，より大局的な特徴を捉える Decay 1 2 3 4 Frequency [kHz] 5 Attack Sustain Release Time 17

18.

最適ダイバージェンスのトレードオフ Performance • 超解像型教師ありNMF及びそのハイブリッド手法における最適なダイバージェンスは音源分離能力と外挿能力のトレードオフとなる総合性能分離能力外挿能力 Value of 0 -2 -4 -6 -8 -10 0 Amplitude [dB] Amplitude [dB] 0 -2 -4 -6 -8 -10 0 1 2 3 4 Frequency [kHz] スパース性: 強 5 1 2 3 4 Frequency [kHz] 5 スパース性: 弱 – 振幅スペクトログラムにおける従来の教師ありNMF分離ではが高性能であったが，ハイブリッド手法ではが高い性能となる 18

19.

まとめ • 超解像型教師ありNMFのコスト関数において，NMFコストと正則化コストを -divergenceで一般化 • 超解像型教師ありNMF及びそのハイブリッド手法における最適なダイバージェンスを実験的に確認 • 音源分離能力と教師基底外挿能力のトレードオフから，最適なダイバージェンスがシフトする現象を確認 19