過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS

422 Views

March 18, 15

#bss #ica #nmf #ilrma #音源分離 #ランク1空間モデル #残響 #主成分分析 #多チャネル非負行列因子分解

スライド概要

Presented at 2015 Spring Meeting of Acoustical Society of Japan (domestic conference)
北村大地, 小野順貴, 澤田宏, 亀岡弘和, 猿渡洋, "過決定条件BSS におけるランク1 空間制約の緩和," 日本音響学会 2015年春季研究発表会, 3-10-11, pp.629-632, Tokyo, March 2015.
Daichi Kitamura, Nobutaka Ono, Hiroshi Sawada, Hirokazu Kameoka, Hiroshi Saruwatari, "Relaxation of rank-1 spatial model in overdetermined BSS," Proceedings of 2015 Spring Meeting of Acoustical Society of Japan, 3-10-11, Tokyo, March 2015 (in Japanese).

Daichi Kitamura

@d-kitamura

スライド一覧

http://d-kitamura.net/links_en.html

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

音源分離技術の基礎と応用～音源分離ﾁｮｯﾄﾜｶﾙになるための手引き～

source separation nmf music bss ica ilrma direction of arrivals deep neural network audio signal processing deep learning

Daichi Kitamura 188.5K

音源分離における音響モデリング（Acoustic modeling in audio source separation）

nmf source separation music bss ica ilrma optimization audio signal processing model

Daichi Kitamura 63.2K

Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法（Jupyter notebookも）

python install jupyter visual studio code pipenv

Daichi Kitamura 46.3K

独立低ランク行列分析に基づく音源分離とその発展（Audio source separation based on independent low-rank matrix analysis and its extensions）

nmf source separation music bss ica ilrma idlma deep neural network spectrogram consistency

Daichi Kitamura 43.5K

独立低ランク行列分析に基づくブラインド音源分離（Blind source separation based on independent low-rank matrix analysis）

nmf source separation music bss ica ilrma

Daichi Kitamura 16K

音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sound media signal processing and its applications

nmf source separation bss ica

Daichi Kitamura 14.3K

各ページのテキスト

過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of Rank-1 Spatial Model in Overdetermined BSS 総合研究大学院大学博士課程1年国立情報学研究所 / 総合研究大学院大学 NTTコミュニケーション科学基礎研究所東京大学 / NTTコミュニケーション科学基礎研究所東京大学北村大地小野順貴澤田宏亀岡弘和猿渡洋

研究背景 • ブラインド音源分離 (blind source separation: BSS) – 観測信号のみ (混合系は未知) から音源信号を推定する技術音源信号観測信号混合系 – 過決定条件 (音源数分離信号分離系録音マイク数) におけるBSS • 独立成分分析 (ICA)，独立ベクトル分析 (IVA) 等 – 劣決定条件 (音源数録音マイク数) におけるBSS • スペクトログラムマスキング，非負値行列因子分解 (NMF) 等 • BSSの応用 – 話者分離，雑音抑圧，音楽信号解析，音場再現の前処理 etc. 2

従来手法 (1/3) • 多チャネル非負値行列因子分解 (NMF) [H. Sawada, 2013] 観測信号の時間＆周波数毎の周波数＆音源毎のスペクトル基底アクティベーションチャネル間相関行列空間相関行列潜在変数（頻出パターン）（時間強度変化）多チャネル観測信号空間モデル : 0~1の実数値基底 Time アクティベーション Amplitude : 複素数値スペクトログラム Frequency : 実数値（非負）参考: 単一チャネルNMF Frequency : 要素毎の積音源モデル Time Amplitude 3

従来手法 (2/3) • 独立ベクトル分析 (IVA) [T. Kim, 2007] 音源信号混合行列観測信号分離行列分離信号 … … … … … – 周波数をまとめた音源ベクトル間の独立性を仮定 • ベクトル内では高次統計量の相関を考慮 • 周波数領域ICAのパーミュテーション問題を解決 – 各フレームで時不変の複素瞬時混合系を仮定 – 安定かつ高速に分離行列が推定可能 4

従来手法 (3/3) • ランク1空間制約付き多チャネルNMF [D. Kitamura, 2014] 多チャネル観測信号空間モデル音源モデル全空間相関行列をランク1で近似 – 空間モデル: IVAの分離行列の推定問題に帰着 – 音源モデル: 単一チャネルNMFの基底とアクティベーションの推定問題に帰着 IVAとNMFの更新式の交互反復により高速かつ安定に多チャネルNMFが解ける 5

ランク1空間モデル • 空間相関行列のランク1近似とは？ – 時間周波数領域での時不変の複素瞬時混合仮定と等価 – 周波数領域ICAやIVAでもおなじみ Frequency 観測信号のスペクトログラム音源信号観測信号時不変複素混合行列 Time 1. 音源が点音源性を持つ 2. 残響が短時間フーリエ変換の窓長より短い 6

ランク1空間モデルの問題点 • 収録環境の残響が長い場合 – 音源とマイク間のインパルス応答が窓長より長くなる – 残響成分が前の時間フレームから漏れる Frequency 観測信号のスペクトログラム音源信号観測信号前フレームから漏れた成分 Time 混合系が時不変瞬時混合では表現できない従来の分離手法（IVA等）では精度が著しく劣化 7

問題点のまとめとモチベーション • 多チャネルNMF [H. Sawada, 2013] – フルランクの空間相関行列を推定可能 • 残響にも多少頑健 – 計算コストが極めて高い – 初期値依存性が強い • IVA [T. Kim, 2007] & ランク1多チャネルNMF [D. Kitamura, 2014] – 空間モデルのランク1空間制約あり (時不変瞬時混合を仮定) – 残響が窓長より長いと精度が劣化高残響下でも音源を分離する為には高い計算効率を保ったままランク1空間制約を緩和したい 8

提案法

10.

アプローチ • 余剰チャネルの存在する過決定条件を想定 – 個の音源に対して倍の録音マイクがある ( 例: 音源2個，マイク4個の場合 ( 観測信号音源信号混合 ) 次元削減された観測信号主成分分析 ) 分離信号 BSS • 主成分分析 (PCA) を用いた次元削減 – 観測信号中の弱い成分（各音源の残響成分）の除去を期待 – パワーがアンバランスな混合には不向き • パワーの弱い音源の主成分が除去される危険がある 10

11.

アプローチ • 余剰チャネルの存在する過決定条件を想定 – 個の音源に対して倍の録音マイクがある ( 例: 音源2個，マイク4個の場合 ( 観測信号音源信号混合 ) ) 仮想的な分離信号直接音分離信号残響 BSS 直接音残響再構成 • 各音源の直接音成分と残響成分を分けて推定 – 直接音成分と残響成分の間の独立性を仮定 – 同一音源の直接音と残響を足し合わせて分離信号を再構成 11

12.

仮想分離信号のクラスタリング • 推定信号の順番の不定性 – どの仮想分離信号がどの音源の直接音or残響音に対応するかが不明仮想分離信号を音源毎にまとめるクラスタリングが必要推定した仮想分離信号クラスタリングされた仮想分離信号クラスタリング音源1の直接音分離信号音源1の残響音音源2の直接音音源2の残響音再構成 12

13.

仮想分離信号のクラスタリング法 • 同一音源の直接音成分と残響成分はパワースペクトログラムが高い相関を持つのパワースペクトログラムのパワースペクトログラム・・・ • 数フレームの遅れを考慮した相互相関値 – 仮想分離信号の全組み合わせの相関値を計算 – 高い順に信号をマージ 13

14.

基底共有型ランク1多チャネルNMF • 同一音源の直接音成分と残響成分は同じスペクトル基底で表現できる • 複数の音源で共有するスペクトル基底を与えて推定ランク1多チャネル NMFの音源モデル共有基底仮想分離信号（音源1の直接音）分離信号（音源1の残響音）共有基底（音源2の直接音）（音源2の残響音）再構成 – ランク1多チャネルNMF限定の手法 (IVAでは不可能) – あらかじめスペクトル基底を共有してモデル化することで音源毎にグルーピングしつつ仮想分離信号を推定 14

15.

実験

16.

分離精度の比較実験 • 実験条件音源信号サンプリング周波数 FFT窓長シフト長基底数反復回数試行回数主観評価値 SiSECのプロ音楽信号に，RWCP収録のマイクアレーインパルス応答で畳み込んで作成，2音源4チャネルの混合信号 44.1 kHz から 16 kHz へダウンサンプル 8192 点 (128 ms, Hamming窓) 2048 点 (64 ms) 各音源につき15本 (トータルで30本) 200 回初期値を変えて10 回平均SDR改善値とその標準偏差 (総合分離性能) – JR2インパルス応答音源1 残響時間: 470 ms マイク間隔: 2.83 cm 音源2 2m 80 60 16

17.

分離精度の比較実験 • 比較手法（計7手法）従来手法 – PCA + 2ch IVA MNMF: 多チャネルNMF BF: ビームフォーマ • PCAをかけて2チャネルに圧縮した後，IVAで分離 – PCA + 2ch Rank1MNMF • PCAをかけて2チャネルに圧縮した後，ランク1多チャネルNMFで分離 – 4ch IVA + クラスタリング提案手法 • 4チャネルのままIVAを適用後，クラスタリングし分離信号を再構成 – 4ch 基底共有型Rank1MNMF • 4チャネルのまま基底共有型ランク1MNMFを適用後，分離信号を再構成 – 4ch MNMF + BF 従来手法参考値 • 4チャネルのまま推定した空間相関（フルランク）でBFを適用（時不変フィルタ） – 4ch MNMF • 4チャネルのまま推定した空間相関（フルランク）と音源モデルで多チャネル Wienerフィルタを適用（時変フィルタ） – 真の空間情報を用いた理想的なBF • 各音源の真の空間相関の時間平均を用いた時不変分離フィルタの限界性能 17

18.

分離精度の比較実験 • 分離性能の比較1 (ultimate_nz_tour__snip_43_61) – Source 1: Guitar – Source 2: Vocals ランク1空間制約 SDR improvement [dB] 16 14 12 10 8 6 4 2 0 フルランクモデル時変フィルタ時不変フィルタ時不変フィルタ（2個/音源）（1個/音源）の限界性能フルランクモデルランク1空間制約時不変フィルタ時不変フィルタ（1個/音源）（1個/音源） PCA+ 2ch IVA PCA+ 4ch IVA+ 4ch 4ch MNMF+ 4ch MNMF 真の空間情報 2ch Rank1 クラスタリング基底共有型 BF を用いた MNMF Rank1MNMF 理想的なBF : Source 1 : Source 2 18

19.

分離精度の比較実験 • 分離性能の比較2 (bearlin-roads__snip_85_99) – Source 1: Acoustic guitar – Source 2: Piano SDR improvement [dB] 12 10 8 6 4 2 0 -2 -4 PCA+ 2ch IVA PCA+ 4ch IVA+ 4ch 4ch MNMF+ 4ch MNMF 真の空間情報 2ch Rank1 クラスタリング基底共有型 BF を用いた MNMF Rank1MNMF 理想的なBF : Source 1 : Source 2 19

20.

分離精度の比較実験 • 分離性能の比較3 (fort_minor-remember_the_name__snip_54_78) – Source 1: Drums – Source 2: Vocals SDR improvement [dB] 12 10 8 6 4 2 0 -2 -4 PCA+ 2ch IVA PCA+ 4ch IVA+ 4ch 4ch MNMF+ 4ch MNMF 真の空間情報 2ch Rank1 クラスタリング基底共有型 BF を用いた MNMF Rank1MNMF 理想的なBF : Source 1 : Source 2 20

21.

分離精度の比較実験 • 計算時間の比較 – 条件 • CPU: Intel Core i7-4790 (3.60GHz) • 環境: MATLAB 8.3 (64-bit) • 楽曲: ultimate_nz_tour__snip_43_61 (18 s, 16 kHzサンプル) PCA + 2ch IVA PCA + 2ch Rank1MNMF 4ch IVA+ クラスタリング 4ch Rank1 MNMF+ クラスタリング MNMF 23.4 s 29.4 s 60.1 s 143.9 s 3611.8 s 高残響下で高い計算効率を保ったまま多チャネルNMFと同程度の分離性能を実現 21

22.

まとめ • 残響時間が窓長を超える長さの観測信号を対象 – 高い計算効率と十分な分離性能の両立 • 音源の数の2倍以上の観測マイク数があれば適用可能な分離アルゴリズムを提案 – 従来はPCAで観測信号の次元圧縮を行うことが一般的だった • 余剰な観測チャネルを用いて各音源の直接音成分と残響成分を別々に推定 – ランク1空間制約が緩和可能 – 高残響下での分離精度向上 • 実験結果は良好な性能を示した – 時不変線形分離フィルタの限界性能を超える場合も確認 22