1.7K Views
March 11, 21
スライド概要
日本音響学会2021春季研究発表会1-1-2
北村大地, 矢田部浩平, "スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価," 日本音響学会 2021年春季研究発表会講演論文集, 1-1-2, pp. 121–124, Tokyo, March 2021.
Daichi Kitamura and Kohei Yatabe, "Experimental evaluation of consistent independent low-rank matrix analysis," Proceedings of 2021 Spring Meeting of Acoustical Society of Japan, 1-1-2, pp. 121–124, Tokyo, March 2021 (in Japanese).
http://d-kitamura.net/links_en.html
日本音響学会2021年春季研究発表会 第1会場 電気音響/午前-前半(08:30~10:00)[音源分離 1] 1-1-2 スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価 〇北村大地(香川高専) 矢田部浩平(早稲田大)
背景 • ブラインド音源分離(blind source separation: BSS) – 混合系 (マイクや音源位置の部屋の形状等)が未知 混合系 分離系 • 優決定条件(マイク数≧音源数)のBSS – 独立成分分析(ICA)[P. Comon, 1994] – 周波数領域ICA(FDICA)[P. Smaragdis, 1998], [H. Saruwatari+, 2000], [H. Sawada+, 2004], ・・・ • 時間周波数領域の音源分離(パーミュテーション問題が発生) – 独立ベクトル分析(IVA)[A. Hiroe, 2006], [T. Kim+, 2006], [T. Kim+, 2007], [N. Ono, 2011] • ベクトル音源モデルでパーミュテーション問題を回避するFDICA • 高速&安定な最適化アルゴリズムAuxIVA [N. Ono, 2011] – 独立低ランク行列分析(ILRMA)[D. Kitamura+, 2016] • 低ランク行列音源モデルでパーミュテーション問題を回避するFDICA 2
優決定条件BSSの難しさ • FDICAに基づくBSSにおけるパーミュテーション問題 – 分離行列 ( は周波数インデクス)が周波数間で非依存 周波数毎に分離信号の順番がバラバラになる 分離信号1 音源1 観測1 分離 行列 音源2 Time パーミュテーション 分離信号2 の整合 観測2 3
本発表の概要 • 解決すべき問題 – IVAやILRMAでもパーミュテーション問題解決にしばしば失敗 • 統計モデル(音源モデル)の改良,DNN等の教師あり化,etc. • 新たな手掛かり – スペクトログラム無矛盾性(spectrogram consistency) [J. L. Roux+, 2010] • 時間周波数領域の信号の近傍共起関係の一貫性 • Consistent IVA [K. Yatabe, 2020] – IVAでスペクトログラム無矛盾性を考慮すると性能が向上 • Consistent ILRMA [豊島ら, 2020年秋ASJ] – ILRMAでも同様に性能向上を確認 • 本発表の新規報告 – Consistent IVA/Consistent ILRMAにおける反復毎のプロジェ クションバックの重要性を実験的に調査 • プロジェクションバック:周波数毎のスケールの補正処理 [K. Matsuoka+, 2001] – 実録音環境における分離性能の改善量を調査 4
スペクトログラム無矛盾性 • 短時間フーリエ変換(STFT)で得られるスペクトログラム には本来一貫した近傍共起関係がある 無矛盾(consistent) Frequency Frequency 矛盾(inconsistent) Time Time • 無矛盾なスペクトログラム – 時間と周波数の両方向に滲んでいる(共起している) – STFTの窓関数乗算やオーバーラップシフトが原因 5
スペクトログラム無矛盾性 • 集合によるイメージ 時間信号の集合 周波数 時間 時間 無矛盾なスペクト ログラムの集合 スペクトログラム (時間周波数信号)の集合 6
スペクトログラム無矛盾性 • 集合によるイメージ 時間信号の集合 ※ STFTの完全再構成 条件を仮定 STFT 逆STFT 無矛盾なスペクト ログラムの集合 スペクトログラム (時間周波数信号)の集合 7
スペクトログラム無矛盾性 • 集合によるイメージ 時間信号の集合 ※ STFTの完全再構成 条件を仮定 矛盾したスペクトログラム (共起関係に一貫性がない) BSS等の何らかの 信号処理 スペクトログラム (時間周波数信号)の集合 8
スペクトログラム無矛盾性 • 集合によるイメージ 時間信号の集合 ※ STFTの完全再構成 条件を仮定 逆STFT 射影 スペクトログラム (時間周波数信号)の集合 9
スペクトログラム無矛盾性 • 集合によるイメージ 時間信号の集合 矛盾スペクトログラムは 「逆STFT→STFT」で 無矛盾スペクトログラム に変換できる ※ STFTの完全再構成 条件を仮定 STFT 逆STFT 射影 スペクトログラム (時間周波数信号)の集合 10
スペクトログラム無矛盾性 • 矛盾したスペクトログラムは逆STFTしてSTFTすることで 無矛盾なスペクトログラムに変換可能 – 但しSTFTが完全再構成条件を満たす条件が必要 矛盾(inconsistent) 無矛盾(consistent) 11
スペクトログラム無矛盾BSS [K. Yatabe, 2020] • IVAやILRMAの分離信号のスペクトログラム無矛盾性を 反復最適化で担保 – パーミュテーション問題発生=とても矛盾したスペクトログラム – 周波数の滲みの強調によりパーミュテーション問題が緩和 12
ILRMAの概要 • 独立低ランク行列分析 (independent low-rank matrix analysis: ILRMA)[D. Kitamura+, 2016] – FDICA+各音源のスペクトログラムの低ランク仮定 – 分離信号のパワースペクトログラム を非負値行列因子分 解(NMF)[D. Lee+, 1999] で低ランク近似しながら分離行列を推定 – 周波数毎の分離行列 とNMF低ランク音源モデル を 交互に反復最適化 – Consistent ILRMAは上記反復最適化の中で無矛盾性を担保 13
反復最適化アルゴリズムの比較 従来手法:ILRMA 提案手法:Consistent ILRMA 14
反復最適化アルゴリズムの比較 従来手法:ILRMA 提案手法:Consistent ILRMA NMF低ランク モデルの更新 分離行列の更新 (AuxIVA [N. Ono, 2011] と同様) 15
反復最適化アルゴリズムの比較 従来手法:ILRMA 提案手法:Consistent ILRMA 分離信号 を逆STFT→STFTし 無矛盾スペクトログラムに変換 NMF低ランク モデルの更新 分離行列の更新 (AuxIVA [N. Ono, 2011] と同様) 分離信号の大きさを全周波数で 統一するスケール補正(プロジェ クションバック)[K. Matsuoka+, 2001] 16
優決定条件BSSの難しさ • 独立性最大化基準では分離信号のスケール(音量)は 決まらない – 分離行列 の乗算で周波数毎にスケールがバラバラになる 分離信号1 音源1 観測1 分離 行列 音源2 Time プロジェクション 分離信号2 バック 観測2 17
反復最適化アルゴリズムの比較 従来手法:ILRMA 提案手法:Consistent ILRMA 分離信号 を逆STFT→STFTし 無矛盾スペクトログラムに変換 NMF低ランク モデルの更新 分離行列の更新 (AuxIVA [N. Ono, 2011] と同様) 分離信号の大きさを全周波数で 統一するスケール補正(プロジェ クションバック)[K. Matsuoka+, 2001] 18
実験条件(インパルス応答の畳み込み混合) • 混合条件(2音源2マイク) 音源1 音源2 – RWCP E2Aインパルス応答 • 残響時間: 2m = 300 ms • 音源信号(ドライソース) – SiSEC2011の音楽4曲の 楽器を組み合わせで10パターン 50 • その他の条件 窓関数 窓長 シフト長 基底数 初期値 反復回数 試行回数 50 5.66 cm ハン窓 128, 256, 512, 768, 1024 ms 窓長の1/4 (原稿には他の結果も掲載) 1音源あたり10本 単位行列 (0, 1) の一様乱数 及び 100回 異なる乱数シードで5回 19
実験結果(インパルス応答の畳み込み混合) Good Poor 20
実験条件(実環境録音混合) • 混合条件(2音源2マイク) – SiSEC2011UND liverec信号(音源位置は様々) • 残響時間: = 250 ms • マイク間隔:1m • 音源信号(ドライソース) – 音楽12パターン及び音声(男女)12パターン • その他の条件 窓関数 窓長 シフト長 基底数 初期値 反復回数 試行回数 ハン窓 512 ms 窓長の1/4 1音源あたり:10本(音楽) or 2本(音声) 単位行列 (0, 1) の一様乱数 及び 100回 異なる乱数シードで5回 21
実験結果(実環境録音混合,音楽信号) Good Poor 22
実験結果(実環境混合,音声信号) Good Poor 23
まとめ • 本発表の概要 – Consistent BSSでのプロジェクションバック有無調査と実録音 での性能 • 明らかになったこと – Consistent IVAでもConsistent ILRMAでもプロジェクション バックは性能向上に大きく寄与(予想通り) – 実録音でも従来のIVAやILRMAから性能向上 • 論文(open access) – D. Kitamura and K. Yatabe, “Consistent independent low-rank matrix analysis for determined blind source separation,” EURASIP J. Adv. in Signal Process., vol. 2020, no. 46, p. 35, 2020. • MATLABソースコード(ILRMAとConsistent ILRMA) – https://github.com/d-kitamura/ILRMA – 本発表の原稿にURLの記載あり 24