ICASSP2017読み会（関東編）・AASP_L3（北村担当分）

1.

ICASSP2017読み会（関東編） 2017年6月24日（土） 15:40-16:05 AASP-L3： Deep Learning for Source Separation and Enhancement I 東京大学特任助教うどん（@UDN48_udon）北村大地

2.

自己紹介 • 名前 – 北村大地（きたむらだいち） • 所属 – 東京大学情報理工学系研究科システム情報学専攻特任助教 • 第一研究室（猿渡研） • 経歴 – 2014年奈良先端科学技術大学院大学修士（工学） – 2017年総合研究大学院大学博士（情報学） • 研究内容 – 音源分離・統計的信号処理 • 確率的生成モデル周り • 非負値行列因子分解（nonnegative matrix factorization） • 独立成分分析（independent component analysis） – （DNNはあんまり知らない・・・） 2/39

3.

セッション背景 • トピック：source separation and enhancement – 音源分離（audio source separation） • 複数の音源が混合された信号を音源毎に分離する信号処理 – 音声強調（speech enhancement） • 音声信号を目的音源として外部雑音等を抑圧する信号処理 – ほぼ全ての音響システムのフロントエンドに応用可能 • 音声認識，補聴器，会議アーカイブ，音楽編集，自動採譜… – 関連キーワード • ビームフォーミング，独立成分分析（ICA），非負値行列因子分解（NMF），時間周波数マスキング，Denoising Autoencoder（DAE）音楽CD 音源分離 3/39

4.

関連ニュース • 三菱電機（MERL）のプレスリリース（2017年5月24日付） – 「ディープクラスタリング」：時間周波数クラスタリングをDNNで http://www.mitsubishielectric.co.jp/news/2017/0524-e.html – 詳細は今日の紹介（AASP-L3.1）と下記も参照 • J. R. Hershey et al., “Deep clustering: discriminative embeddings for segmentation and separation,” Proc. ICASSP, pp. 31-35, 2016. • Y. Isik, et al., “Single-channel multi-speaker separation using deep clustering”, Proc. Interspeech, pp. 545-549, 2016. – 下記でデモンストレーションも公開されている • http://www.merl.com/demos/deep-clustering 4/39

5.

セッション目次 • AASP-L3.1: Deep clustering and conventional networks for music separation: stronger together TFマスク推定 – Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani • AASP-L3.2: DNN-based speech mask estimation for eigenvector beamforming TFマスク推定 – Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf • AASP-L3.3: Recurrent deep stacking networks for supervised speech separation TFマスク推定 – Z.-Q. Wang, and D.L. Wang • AASP-L3.4: Collaborative deep learning for speech enhancement: a runtime model selection method using autoencoders オートエンコーダ – M. Kim • AASP-L3.5: DNN-based source enhancement self-optimized by reinforcement learning using sound quality measurements TFマスク選択 – Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda • AASP-L3.6: A neural network alternative to non-negative audio models – P. Smaragdis and S. Venkataramani オートエンコーダ 5/39

6.

セッション目次 • AASP-L3.1: Deep clustering and conventional networks for music separation: stronger together – Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani • AASP-L3.2: DNN-based speech mask estimation for eigenvector beamforming – Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf • AASP-L3.3: Recurrent deep stacking networks for supervised speech separation – Z.-Q. Wang, and D.L. Wang • AASP-L3.4: Collaborative deep learning for speech enhancement: a runtime model selection method using autoencoders – M. Kim • AASP-L3.5: DNN-based source enhancement self-optimized by reinforcement learning using sound quality measurements – Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda • AASP-L3.6: A neural network alternative to non-negative audio models – P. Smaragdis and S. Venkataramani 6/39

7.

単一チャネル音源分離：deep clustering • 時間周波数マスクの推定問題 – 単一チャネル観測信号に対する音源分離 – 非目的音源を時間周波数領域でマスキングする非線形処理 frequency [Hz] • 時間周波数領域のクラスタリング問題として定式化 • 時間周波数マスク（binary or soft）の推定 mixture separated time [s] 時間周波数マスクの推定にDNNを使う音声の時間周波数構造を学習から獲得 7/39

8.

単一チャネル音源分離：deep clustering • Deep clustering [J. R. Hershey+, 2016] – 学習話者に非依存な単一チャネル信号の複数音声分離 – は観測の時間周波数信号 • ここで（時間フレーム数×周波数ビン数） • 短時間フーリエ変換（STFT）で得られる複素数行列をベクタライズ – 特徴量マッピングの例これがDNN • ここで • つまりDNNは • はクラスタ数（モデルの次元），多めにとっておいてもOK（らしい？） • は各時間周波数スロットにおける各クラスタへの寄与度のようなもの – は学習時の正解データ • ここで • つまりは音源数インデクスでは正解のクラスタリング結果（0と1） – 分離時のSN比を最大化するようなバイナリマスク，学習データなら作成可 • なのでをに近づけるようにDNNを学習する必要がある 8/39

9.

単一チャネル音源分離：deep clustering • Deep clustering [J. R. Hershey+, 2016] – なんとなくのイメージ近づけたいこの想い要素は 0と1のみ時間と周波数 DNNによるすごーい変換要素は実数時間と周波数時間と周波数要素は複素数モデルの次元音源数制約制約 DNNの学習というかバイナリなのでone-hot vector 9/39

10.

単一チャネル音源分離：deep clustering • Deep clustering [J. R. Hershey+, 2016] – サイズが違うのでそのままではと • 間の距離が測れないなら測れるけれど，モデルの次元は大きくしたい – 相互相関行列（affinity matrix）を計算 • と，いずれもサイズは • はある時間周波数スロットと別の時間周波数スロットが同じ音源に属する場合は大きな値を取り，異なる音源に属する場合は小さな値を取る • も同様だが，こちらは1か0かのバイナリになる • これは一般的な音声信号（学習に使う信号）の時間周波数間の共変構造を表している – DNN（）を学習するためのコスト関数 10/39

11.

単一チャネル音源分離：deep clustering • Deep clustering [J. R. Hershey+, 2016] – コスト関数の解釈同じ音源に属する2つの時間周波数成分全ての時間周波数成分を一つのクラスタとしてどんどん近づけるを互いに遠ざける – 学習のイメージ（各点が，色はによって振られる） 11/39

12.

単一チャネル音源分離：deep clustering • Deep clustering [J. R. Hershey+, 2016] – 偏微分は超簡単（matrix cookbook参照） – DNN学習後，実際に特徴量から時間周波数マスクを推定するときはk-means等で各音源にクラスタリング • K-meansの場合推定クラスタリング結果 – テスト信号をDNNに入力して得られる特徴量が推定バイナリマスクそのものなので，が音源分離は要素毎の積 12/39

13.

単一チャネル音源分離：deep clustering • Deep clustering [J. R. Hershey+, 2016] – 詳細な実験条件等はペーパー参照（下記，いくつか抜粋） • 30時間のtraining音声と10時間のvalidation音声 • 2層のbi-directional long short-term memory (BLSTM)の後に1層のfeedforward – LSTMなので時間フレーム毎の周波数ベクトルを入力している • 各BLSTMは600 hidden cells，feedforwardはD次元 • 確率的勾配法 – どの程度分離できるのか？ • http://www.merl.com/demos/deep-clustering で公開されているスライドで確認 13/39

http://www.merl.com/demos/deep-clustering

14.

単一チャネル音源分離：deep clustering Target Estimate Noisy Conventional MERL 引用元： http://www.merl.com/demos/deep-clustering 14/39

http://www.merl.com/demos/deep-clustering

15.

AASP-L3.1: キメラネットワークによるマスク推定 • Deep clustering and conventional mask estimation – Deep clusteringと従来のマスク推定ネットワークのマルチタスク学習による歌声分離（「歌声」と「その他伴奏」） • Deep clusteringのマスク推定部分にクラスタリングが必要であったネットワーク学習のコスト関数にクラスタリングは考慮されていない – k-meansで終わらせていた • 従来のDNNによるマスク推定はこのクラスタリング部分に対応 – Deep clusteringの特徴量マッピングとマスク推定（クラスタリング）の両コストを一つのネットワーク学習で用いる拡張が考えられる – 「特徴量マッピング」と「クラスタリング」のマルチタスク学習だが，「音源分離」という最終的な目的は共通 • DNNは最後の非線形関数以外は共通，学習のコスト関数は2つ – 身体は１つ，頭が２つの「キメラネットワーク」と表現 – ネーミングセンスが良い 15/39

16.

AASP-L3.1: キメラネットワークによるマスク推定 • Deep clustering and conventional mask estimation – キメラネットワークの各頭 • Deep clusteringのコスト関数 • マスク推定のコスト関数 Source ref. もしくは Mask (0～1) Mixture Mask ref. – 全体のコスト関数 • 両者の結合 16/39

17.

AASP-L3.1: キメラネットワークによるマスク推定 • Deep clustering and conventional mask estimation – 結果（V，MはそれぞれVocalsとMusic（伴奏），値はSDR）この値がα，1.0がDCで0.0がMI 17/39

18.

AASP-L3.1: キメラネットワークによるマスク推定 • Deep clustering and conventional mask estimation – 結果 18/39

19.

セッション目次 • AASP-L3.1: Deep clustering and conventional networks for music separation: stronger together – Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani • AASP-L3.2: DNN-based speech mask estimation for eigenvector beamforming – Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf • AASP-L3.3: Recurrent deep stacking networks for supervised speech separation – Z.-Q. Wang, and D.L. Wang • AASP-L3.4: Collaborative deep learning for speech enhancement: a runtime model selection method using autoencoders – M. Kim • AASP-L3.5: DNN-based source enhancement self-optimized by reinforcement learning using sound quality measurements – Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda • AASP-L3.6: A neural network alternative to non-negative audio models – P. Smaragdis and S. Venkataramani 19/39

20.

AASP-L3.2: DNNによるビームフォーミング • DNN-based SPP estimation for beamforming – ビームフォーミング • マイク間の録音信号の違い（パワー差，位相差）を用いて特定の方向の音だけを得る技術 • 非定常な拡散性背景雑音の除去 – 様々な手法がある（浅野太, “音のアレイ信号処理,” コロナ社）マイクアレイ • 遅延和法，空間Wienerフィルタ，MVDR，一般化サイドローブキャンセラ • 「マイクアレイ形状が既知」，「目的音源のステアリングベクトルが既知」等の条件（仮定）が必要 • できるだけ少ない仮定でビームフォーミングしたい • 今回は「音源位置は急激には動かない」，「雑音は非定常」のみを使う – SPP: speech presence probability • 時間周波数の各スロットの成分が音声である確率≒時間周波数マスク • これが分かれば一般化サイドローブキャンセラが動く（論文（10）式参照） – ほんならDNNでSPPを推定しましょうかねぇ 20/39

21.

AASP-L3.2: DNNによるビームフォーミング • DNN-based SPP estimation for beamforming Speech – 観測信号（時間周波数領域）： Noise（非定常）マイク数 – 観測の空間相関行列： – 次のカーネルを周波数毎に定義 • 論文に詳細な記述はないが恐らく瞬時空間相関行列 • このカーネルの特徴固有値固有ベクトルは最大固有値に対応する固有ベクトルに時間インデクスが付いているので，の固有値分解から得ている – 現在といくらか前の時刻の固有ベクトルのコサイン距離 – 固有ベクトルの時間的な変化を考慮できる – 観測チャネルは内積なので平均を取るように圧縮 – このカーネルをまとめたベクトルをDNNの入力とする（Kernelized DNN） 21/39

22.

AASP-L3.2: DNNによるビームフォーミング • DNN-based SPP estimation for beamforming – DNNの構造 • ２段のAutoencoderによるGenerative component（周波数毎に独立） • Softmax regressionで全周波数情報をまとめて確率値を得る discriminative component Generative component Discriminative component • 「BLSTMでも似たことが実現できるが，こちらのほうがシンプルで実装と学習が楽」らしい – 出力の確率値そのものがSPP（音声の確率）として活用可能 22/39

23.

AASP-L3.2: DNNによるビームフォーミング • DNN-based SPP estimation for beamforming – 実験結果 CHiME4の世界一位（NTTのMVDRビームフォーマのステアリングベクトルをDNNで推定する技術） 23/39

24.

AASP-L3.2: DNNによるビームフォーミング • DNN-based SPP estimation for beamforming – 実験結果 24/39

25.

セッション目次 • AASP-L3.1: Deep clustering and conventional networks for music separation: stronger together – Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani • AASP-L3.2: DNN-based speech mask estimation for eigenvector beamforming – Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf • AASP-L3.3: Recurrent deep stacking networks for supervised speech separation – Z.-Q. Wang, and D.L. Wang • AASP-L3.4: Collaborative deep learning for speech enhancement: a runtime model selection method using autoencoders – M. Kim • AASP-L3.5: DNN-based source enhancement self-optimized by reinforcement learning using sound quality measurements – Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda • AASP-L3.6: A neural network alternative to non-negative audio models – P. Smaragdis and S. Venkataramani 25/39

26.

AASP-L3.5: 知覚評価を使った音源分離最適化 • DNN-based self-optimization using sound quality – 従来のDNNで時間周波数マスクを推定するタスク • パラメタ更新（コスト関数）はMMSE規範理想的なマスク（教師から算出可） DNNの出力のマスク • 入力ベクトル – 前後数フレームの周波数ベクトル • ネットワーク， • 出力 26/39

27.

AASP-L3.5: 知覚評価を使った音源分離最適化 • DNN-based self-optimization using sound quality – 従来法の問題点と動機 • 性能改善のためには大規模な学習データによる長時間の学習が必要 – 現実的なデータがそんなに大量に手に入るのか？ • MMSE規範の最適マスクが必ずしも人間の知覚に適切とは限らない – 一番良いのは主観評価 – 次点で人間の知覚をある程度考慮した評価尺度 » Perceptual evaluation of speech quality (PESQ) » Perceptual evaluation methods for audio source separation (PEASS) – 知覚的な評価尺度（PESQとPEASS）をコスト関数に報酬として用いた最適化 • 学習データからMMSE基準の理想的時間周波数マスクを大量に用意 – 時間周波数マスクのテンプレートとしてデータベース的に扱う • 与えられた入力（観測時間フレーム）に対して，学習済みのテンプレートから最も評価尺度が最大となる時間周波数マスクを選ぶようなDNNを学習する 27/39

28.

AASP-L3.5: 知覚評価を使った音源分離最適化 • DNN-based self-optimization using sound quality – 従来の時間周波数マスク推定DNN ， • DNNの出力 – 提案する時間周波数マスクテンプレート選択DNN • マスクのテンプレート（学習済） • DNNの出力，， Softmax • パラメタ更新（コスト関数）主観評価スコアを含む関数（教師） 28/39

29.

AASP-L3.5: 知覚評価を使った音源分離最適化 • DNN-based self-optimization using sound quality – 提案法の全体的構成マスクテンプレート知覚評価尺度 – 従来の単純なDNNマスク推定の出力分離音 – 提案のマスクテンプレート選択DNNによる出力分離音両分離音の知覚評価尺度を比較して後者がより高いスコアとなるようにパラメタが学習される（そのようにが設計されている） 29/39

30.

AASP-L3.5: 知覚評価を使った音源分離最適化 • DNN-based self-optimization using sound quality – 実験結果 30/39

31.

セッション目次 • AASP-L3.1: Deep clustering and conventional networks for music separation: stronger together – Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani • AASP-L3.2: DNN-based speech mask estimation for eigenvector beamforming – Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf • AASP-L3.3: Recurrent deep stacking networks for supervised speech separation – Z.-Q. Wang, and D.L. Wang • AASP-L3.4: Collaborative deep learning for speech enhancement: a runtime model selection method using autoencoders – M. Kim • AASP-L3.5: DNN-based source enhancement self-optimized by reinforcement learning using sound quality measurements – Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda • AASP-L3.6: A neural network alternative to non-negative audio models – P. Smaragdis and S. Venkataramani 31/39

32.

AASP-L3.6: NMFからNonnegative AEへ • 非負値行列因子分解（NMF） [Lee+, 1999] – 非負制約付きの任意基底数（本）による低ランク近似 • 限られた数の非負基底ベクトルとそれらの非負係数を抽出 – STFTで得られるパワースペクトログラムに適用 • 頻出するスペクトルパターンとそれらの時間的な強度変化 Time 基底 Amplitude 基底行列アクティベーション行列 (スペクトルパターン) (時間的強度変化) Frequency Frequency 混合された観測行列 (パワースペクトログラム) アクティベーション Time Amplitude : 周波数ビン数 : 時間フレーム数 : 基底数 32/39

33.

AASP-L3.6: NMFからNonnegative AEへ • 教師ありNMFによる音源分離 [Smaragdis+, 2007] – 混合されている各音源の基底行列をあらかじめ学習しておく – 学習済基底は各音源の「スペクトル辞書」のようなもの学習ステージ , 分離ステージ学習済基底は固定アクティベーションだけを更新 33/39

34.

AASP-L3.6: NMFからNonnegative AEへ • NMFのネットワークとしての解釈 – 非負の係数を出力する次元圧縮と考える Encoder • 第一層： • 第二層： Decoder • しかし擬似逆行列は非負性の保証がない – Nonnegative autoencoder (NAE) • 第一層： • 第二層： • 非負値に変換する非線形関数（RELUとか絶対値関数とか） • もはやの非負性は不要 – コスト関数（NMFではおなじみの一般化KLダイバージェンス） 34/39

35.

AASP-L3.6: NMFからNonnegative AEへ • NMFのネットワークとしての解釈ピアノ音信号の分解 35/39

36.

AASP-L3.6: NMFからNonnegative AEへ • NMFのネットワークとしての解釈 – ほんならディープにしますかね • 層が増えた分モデリング能力は向上 • この形でRNNやconvolutionalな層を持つものに拡張可能 – NAEを用いた音源分離 • 各音源のネットワークモデルを学習しておく • 混合信号に対してら推定する • とをやから求めるをNAEかの微分 36/39

37.

AASP-L3.6: NMFからNonnegative AEへ • NMFのネットワークとしての解釈 – 実験結果（2音声混合，上が1層，下が4層のNAE，ランクがユニット数） 37/39

38.

AASP-L3.6: NMFからNonnegative AEへ • NMFのネットワークとしての解釈 – 実験結果（2音声混合，左が1層，右が4層のNAE，ランクがユニット数） 38/39

39.

セッションまとめ • DNNをどのように音源分離問題に活用するか – 分離信号or時間周波数マスクをDNNで推定する方針（人気） • 単一チャネルに適用可能 • Autoencoder, denoising autoencoder, nonnegative autoencoder – 古典的なアルゴリズムで音源分離をするが，必要なパラメタを DNNで推定する方針 • マルチチャネルを対象とすることが多い • ステアリングベクトルの推定，Speech presence probabilityの推定 – 条件・用途に応じたDNN活用法の開拓・深化 • 観測信号の条件はどうか（チャネル数，音源数） • 求めているものは何か（絶対的な雑音抑圧能力，分離音の品質） • 学習データセット構築の現実的可能性はどうか – 音源はもはや学習できる – 伝達系等の空間情報は？ 39/39

ICASSP2017読み会（関東編）・AASP_L3（北村担当分）

Daichi Kitamura

関連スライド

音源分離技術の基礎と応用～音源分離ﾁｮｯﾄﾜｶﾙになるための手引き～

音源分離における音響モデリング（Acoustic modeling in audio source separation）

Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法（Jupyter notebookも）

独立低ランク行列分析に基づく音源分離とその発展（Audio source separation based on independent low-rank matrix analysis and its extensions）

独立低ランク行列分析に基づくブラインド音源分離（Blind source separation based on independent low-rank matrix analysis）

音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sound media signal processing and its applications

各ページのテキスト