独立低ランク行列分析に基づくブラインド音源分離（Blind source separation based on independent low-rank matrix analysis）

1.

応用音響研究会（EA） 2017年10月22日（日）09:00–10:00 ［招待講演］独立低ランク行列分析に基づくブラインド音源分離 Blind Source Separation Based on Independent Low-Rank Matrix Analysis 東京大学大学院情報理工学系研究科首都大学東京システムデザイン研究科 NTTコミュニケーション科学基礎研究所 NTTコミュニケーション科学基礎研究所東京大学大学院情報理工学系研究科北村大地小野順貴澤田宏亀岡弘和猿渡洋

2.

発表の概要 • 研究の背景 – 音源分離問題の工学的意義と技術的俯瞰 • ブラインド音源分離と独立成分分析 – 前提条件，問題解決に利用可能な手掛かり – 周波数領域への適用，耐残響性の向上 • 音楽信号の効率的なモデリング – 非負値行列因子分解による低ランク近似 – 板倉斎藤擬距離に基づく最尤推定独立成分分析に由来する信号源分離法の発展（1994年～2012年）非負値行列因子分解に由来する非負行列モデリング法の発展（1999年～2013年） • 独立低ランク行列分析によるブラインド音源分離 – 独立低ランク行列分析 – 多チャネル非負値行列因子分解との関連性 • まとめとさらなる発展 – より高精度なブラインド音源分離を目指して 2

3.

発表の概要 • 研究の背景 – 音源分離問題の工学的意義と技術的俯瞰 • ブラインド音源分離と独立成分分析 – 前提条件，問題解決に利用可能な手掛かり – 周波数領域への適用，耐残響性の向上 • 音楽信号の効率的なモデリング – 非負値行列因子分解による低ランク近似 – 板倉斎藤擬距離に基づく最尤推定独立成分分析に由来する信号源分離法の発展（1994年～2012年）非負値行列因子分解に由来する非負行列モデリング法の発展（1999年～2013年） • 独立低ランク行列分析によるブラインド音源分離 – 独立低ランク行列分析 – 多チャネル非負値行列因子分解との関連性 • まとめとさらなる発展 – より高精度なブラインド音源分離を目指して 3

4.

音源分離の工学的・社会的な重要性 • 音源分離（audio source separation） – 音響信号を対象とした信号処理技術の一つ • 信号処理：観測信号から有益な意味や情報を引き出し活用する技術観測信号ただの雑音… 雑音の中に人の声がある！ • 知能情報学・機械学習の一大トピック – 人の声，雑音，歌声，楽器音，機械音等の音源を「分離」 – 人間の持つカクテルパーティ効果を機械で実現：機械の耳 • カクテルパーティ効果：うるさい場所でも特定の人物の声に注意を向けて聞き取ることができる人間の能力 4

5.

音源分離の応用の一例 • 補聴器デバイス – 雑音環境での聞きやすさを改善，健常者も対象 • 眼鏡と同じくらい補聴器は一般に普及するか • 音声認識 – 耐雑音性向上，会議等の複数話者同時認識 • 自動採譜 – 楽器毎の楽譜を音楽CDから直接作成分離音楽CD • ライブ音楽演奏の再編集 – 音楽演奏は一期一会，その場で音源が混合 – 音楽・芸術文化の興隆 – 芸術性を損なわない超高品音源分離 • 70人のオーケストラ演奏から「この人のヴァイオリン」が分離できるか 5

6.

音源分離の技術的俯瞰：観測条件 • 観測信号のマイク数（チャネル数）による条件の違い難 – 単一チャネル信号（モノラル信号） 1ch • 音源分離には最も困難な録音条件 – 応用範囲は最も広いモノラル録音 • 音色に関する情報しか得られない – 劣決定条件（音源数モノラル信号（1-ch）マイク数） • 2チャネル（ステレオ）等，混合されている音源の方がチャネルよりも多い • 単一チャネルでは得られなかった空間的な情報が得られる L-ch R-ch 音楽CD ステレオ信号（2-ch） – 各マイクで観測した信号間の振幅差と位相差 – 優決定条件（音源数 1ch • 十分な数のマイクがある 2ch – 録音装置は大規模化，煩雑化 • 得られる空間的な情報の量も多い … … 易マイク数） Mch マイクアレイ – 空間情報を使う音源分離は比較的高性能多チャネル信号 6

7.

音源分離の技術的俯瞰：前提条件 • 事前に用意できる外部からのヒント（教師情報）の有無難 – 何もヒントがない「ブラインド音源分離」 • 複数の音源が既に混合された観測信号のみ利用可能 • 音源に関する何らかの「性質・仮定」を用いる必要あり – 推測される音声の特徴や楽器音の特徴等易 – 使えるヒントがある「教師あり音源分離」 • 音源分離問題を解くヒントがあれば分離性能は向上 • 利用可能な教師は様々 – 分離したい音源の音色サンプル（少量）音階のサンプル » 音色をそのままパーツとして用いる – 分離したい音源の音色サンプル（大量） » 近年発展している深層学習（AI）を適用 – マイク位置や音源位置等，録音時の空間的な情報 – その他，楽譜，ユーザからの指示，カメラからの情報等 • 本講演では「優決定条件ブラインド音源分離」を対象とし，最先端の音源分離アルゴリズムを紹介 7

8.

音源分離の歴史と発展（一部） • 基礎理論とその拡張手法 1994 独立成分分析（ICA） 1998 周波数領域ICA（FDICA）年代 1999 2006 パーミュテーション問題解決法の検討独立ベクトル分析（IVA） 2011 補助関数IVA（AuxIVA） 2012 時変複素ガウスIVA 2016 非負値行列因子分解（NMF） NMFの様々な問題への適用生成モデル的解釈の発見各種拡張手法板倉斎藤擬距離NMF（ISNMF） 2009 2013 代表的なもののみ記述多チャネルNMF 独立低ランク行列分析（ILRMA） 8

9.

発表の概要 • 研究の背景 – 音源分離問題の工学的意義と技術的俯瞰 • ブラインド音源分離と独立成分分析 – 前提条件，問題解決に利用可能な手掛かり – 周波数領域への適用，耐残響性の向上 • 音楽信号の効率的なモデリング – 非負値行列因子分解による低ランク近似 – 板倉斎藤擬距離に基づく最尤推定独立成分分析に由来する信号源分離法の発展（1994年～2012年）非負値行列因子分解に由来する非負行列モデリング法の発展（1999年～2013年） • 独立低ランク行列分析によるブラインド音源分離 – 独立低ランク行列分析 – 多チャネル非負値行列因子分解との関連性 • まとめとさらなる発展 – より高精度なブラインド音源分離を目指して 9

10.

音源分離の歴史と発展（一部） • 基礎理論とその拡張手法 1994 独立成分分析（ICA） 1998 周波数領域ICA（FDICA）年代 1999 2006 パーミュテーション問題解決法の検討独立ベクトル分析（IVA） 2011 補助関数IVA（AuxIVA） 2012 時変複素ガウスIVA 2016 非負値行列因子分解（NMF） NMFの様々な問題への適用生成モデル的解釈の発見各種拡張手法板倉斎藤擬距離NMF（ISNMF） 2009 2013 代表的なもののみ記述多チャネルNMF 独立低ランク行列分析（ILRMA） 10

11.

ブラインド音源分離と独立成分分析 • ブラインド音源分離（blind source separation: BSS） – 混合系が未知の条件で分離系を推定混合系分離系 BSS – マイクの位置や間隔，音源の位置等の情報が不要 • 優決定条件（マイク数≧音源数）のBSS – 統計的独立性に基づく手法が代表的 • 独立成分分析（ICA）[Comon, 1994] • 周波数領域ICA（FDICA）[Smaragdis, 1998], [Saruwatari, 2000], [Sawada, 2004], ・・・ • 独立ベクトル分析（IVA）[Hiroe, 2006], [Kim, 2006], [Kim, 2007], [Ono, 2011], [Ono, 2012], ・・・ • 電波，脳等の生体信号，地震波形等の分野で発展 • ICA理論の確立後は音響信号処理分野が世界的に牽引 11

12.

ICAの分離原理：音源の分布とは？ Amplitude • 音声波形の分布ガウス分布（正規分布） 0.5 Time samples 0.4 0.3 0.2 0.1 Amount of components 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 0付近で急峻であり，裾が広い分布ガウス分布（正規分布）とは全然違う，非ガウス分布 Amplitude 13

13.

ICAの分離原理：音源の分布とは？ Amplitude • ピアノ音波形の分布ラプラス分布 Time samples 0.6 0.5 0.4 0.3 0.2 0.1 0 Amount of components -5 -4 -3 -2 -1 0 1 2 3 4 5 やはりガウス分布より尖っていて裾が広い Amplitude 13

14.

ICAの分離原理：音源の分布とは？ Amplitude • ドラム音の分布コーシー分布 1 0.8 Time samples 0.6 0.4 0.2 0 Amount of components -5 -4 -3 -2 -1 0 1 2 3 4 5 やはりガウス分布より尖っていて裾が広い Amplitude 13

15.

ICAの分離原理：中心極限定理の検証 • 音源の分布（生成モデル）は多くの場合非ガウスな分布 – しかし混合音しか観測できないので各音源の分布は不明 • 中心極限定理（central limit theorem） – 「いかなる分布から生成される確率変数も足していくとガウス分布に従う確率変数に近づいてゆく」※ ※ただし中心極限定理を満たさない確率分布もある（安定分布族と呼ばれ，「一般化中心極限定理」が成り立つ）ラプラス分布一様分布 0.6 0.5 0.4 0.3 0.2 0.1 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 正規分布 0.01 0.5 0.008 0.4 0.006 0.3 0.004 0.2 0.002 0.1 0 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5 Generate r.v.s • 信じられない？ 15

16.

ICAの分離原理：中心極限定理の検証 • とを独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 – では Amount Amount • それぞれのサイコロを100万回降った結果という値はどのような分布に従うか？ 16

17.

ICAの分離原理：中心極限定理の検証 • とを独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 Amount • それぞれのサイコロを100万回降った結果 – ではもはや一様分布ではないはどうか？ 17

18.

ICAの分離原理：中心極限定理の検証 • とを独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 Amount Amount • それぞれのサイコロを100万回降った結果 18

19.

ICAの分離原理：中心極限定理の検証 • とを独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 • それぞれのサイコロを100万回降った結果 – どんどんガウス分布に近づいてゆく（中心極限定理） 19

20.

ICAの分離原理：中心極限定理の検証 • は , およそ3.3 s Amplitude Amplitude – – 番目の話者の音声信号 Time samples Amount Amount Time samples Amplitude Amplitude 20

21.

ICAの分離原理：中心極限定理の検証 – – 番目の話者の音声信号 , およそ3.3 s Amplitude は Time samples Amount • Amplitude 21

22.

ICAの分離原理：中心極限定理の検証 • は , およそ3.3 s Amplitude Amplitude – – 番目の話者の音声信号 Time samples Amount Amount Time samples Amplitude Amplitude 22

23.

ICAの分離原理：中心極限定理の検証 – – 番目の話者の音声信号 , およそ3.3 s Amplitude は Time samples Amount • Amplitude 23

24.

ICAの分離原理：中心極限定理の検証 – – 番目の話者の音声信号 , およそ3.3 s Amplitude は Time samples ほぼガウス分布 Amount • Amplitude 24

25.

ICAの分離原理：非ガウス性・独立性の最大化 • 中心極限定理から言えること – ガウス分布は「確率変数の混合」の極限にある – もし各信号の非ガウス性を最大化することができるならば, 混合する前の信号を推定することができる（かもしれない）混ざることでガウス分布に近づいてゆく（中心極限定理）各成分の非ガウス性最大化非ガウス性を最大化することで分離されてゆく（ICA）より一般的には成分間の独立性最大化 ICAの音源分離の原理 25

26.

ICAの分離原理：前提条件 • ICAにおける前提条件（用いられる仮定） – 1. 混合前の各音源は互いに独立である – 2. 混合前の各音源は非ガウスな分布に従う – 3. 混合系は時不変であり逆系（分離系）が存在する未知の音源混合系 1. 互いに独立 2. 非ガウスな分布観測できる混合信号 3. 時不変かつ逆系が存在逆行列 10

27.

ICAの分離原理：不確定性 • ICAにおける不確定性 – 1. 分離信号のスケール（音量）は決定できない – 2. 分離信号の順番（パーミュテーション）は決定できない未知の音源観測できる混合信号推定された分離信号 ICA 未知の音源観測できる混合信号推定された分離信号 ICA 11

28.

周波数領域ICA（FDICA） • 実際の音響信号の混合 – 残響による畳み込み混合 • 例: 会議室では300 ms，コンサートホールでは2 s等畳み込み混合残響長瞬時混合（混合フィルタのタップ長） – 時不変混合係数が時不変混合フィルタに変化 • 畳み込み混合の分離系をICAでどう推定するか – 1. 時間領域での逆フィルタを推定 • 16 kHzサンプルでは300 msのフィルタ長が4800タップ（1音源あたり） • ICAで推定すべきパラメータが爆発的に増加→推定は困難 – 2. 周波数領域でICAを適用（フーリエ変換で畳み込みを積に） • 周波数毎の分離行列を周波数毎のICAで推定→推定は容易 • パーミュテーション問題に直面 28

29.

周波数領域ICA（FDICA） • 短時間フーリエ変換（short-time Fourier transform: STFT） – 音響信号を短時間で切り出して周波数領域に変換時間信号スペクトログラム … フーリエ変換窓関数フーリエ変換シフト長 Frequency フーリエ変換窓長 … Time 窓長 – 畳み込み混合を周波数領域の瞬時混合に変換 • フーリエ変換により「畳み込み」が「積」に変換されるため – ICA理論がそのまま適用可能 • 一つ一つの周波数に独立なICAを適用し周波数毎の分離行列を推定 29

30.

周波数領域ICA（FDICA） • 周波数領域ICA（FDICA）[Smaragdis, 1998] … … … Frequency bin – 各周波数ビンの複素時系列に対して独立なICAを適用多チャネルスペクトログラム ICA1 ICA2 ICA3 ICA Time frame 周波数領域の時不変瞬時混合行列逆行列 30

31.

周波数領域ICA（FDICA） • FDICAにおけるパーミュテーション問題 – 各周波数ビンで推定信号の順序がバラバラになる – 様々なパーミュテーションソルバが検討されている分離信号1 音源1 観測1 ICA Time 音源2 Permutation Solver 分離信号2 観測2 全て時間周波数領域の信号 ※分散（スケール）もバラバラになるが，これは容易に戻すことが可能 31

32.

到来方向を用いたパーミュテーション解決 • FDICA＋DOAクラスタリング[Saruwatari, 2006] – 推定分離フィルタから混合フィルタを逆算 – 音源の到来方向（DOA）でクラスタリング音源とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル正面右 DOA クラスタリング左正面到来方向（DOA）右推定された音源成分の頻度推定された音源成分の頻度左 Source 1 Source 2 左正面右到来方向（DOA） 32

33.

独立ベクトル分析（IVA） • パーミュテーション問題解決のエレガントなアプローチ – 分離フィルタ推定（周波数毎のICAの最適化） 1個の問題の – パーミュテーション問題の解決（ポスト処理）最適化で実現したい • 独立ベクトル分析（IVA）[Hiroe, 2006], [Kim, 2006] スカラー – ICAを多変量（多次元）分布モデルへ拡張（ – 周波数をまとめたベクトル変数に対するICA 多変量非ガウス分布混合行列観測信号ベクトル分離行列）推定信号互いに独立 … … … … … 互いに高次相関を持つ同じ時間変動を持つ周波数成分を「一つの音源」にまとめる 33

34.

FDICAとIVAの分離原理比較 • FDICAの分離原理推定信号 STFT 分離フィルタ推定信号の分布形状が，あらかじめ仮定した非ガウスな音源分布に近づくよう分離フィルタを更新 Time Frequency 観測信号 Frequency 中心極限定理より，混合信号本来の音源信号ははガウス分布に近い信号非ガウス分布に従うスカラーの確率変数推定信号の現在の分布形状非ガウスな音源分布互いに独立 Time • IVAの分離原理 Frequency 推定信号分離フィルタ STFT 推定信号の分布形状が，あらかじめ仮定した非ガウスな球対称多変量音源分布に近づくよう分離フィルタを更新 Time Frequency 観測信号ベクトルの多変量確率変数非ガウスな球対称多変量推定信号の音源分布現在の分布形状互いに独立 Time 34

35.

発表の概要 • 研究の背景 – 音源分離問題の工学的意義と技術的俯瞰 • ブラインド音源分離と独立成分分析 – 前提条件，問題解決に利用可能な手掛かり – 周波数領域への適用，耐残響性の向上 • 音楽信号の効率的なモデリング – 非負値行列因子分解による低ランク近似 – 板倉斎藤擬距離に基づく最尤推定独立成分分析に由来する音源分離法の発展（1994年～2012年）非負値行列因子分解に由来する非負行列モデリング法の発展（1999年～2013年） • 独立低ランク行列分析によるブラインド音源分離 – 独立低ランク行列分析 – 多チャネル非負値行列因子分解との関連性 • まとめとさらなる発展 – より高精度なブラインド音源分離を目指して 35

36.

音源分離の歴史と発展（一部） • 基礎理論とその拡張手法 1994 独立成分分析（ICA） 1998 周波数領域ICA（FDICA）年代 1999 2006 パーミュテーション問題解決法の検討独立ベクトル分析（IVA） 2011 補助関数IVA（AuxIVA） 2012 時変複素ガウスIVA 2016 非負値行列因子分解（NMF） NMFの様々な問題への適用生成モデル的解釈の発見各種拡張手法板倉斎藤擬距離NMF（ISNMF） 2009 2013 代表的なもののみ記述多チャネルNMF 独立低ランク行列分析（ILRMA） 36

37.

非負値行列因子分解による音のモデリング • 非負値行列因子分解（NMF） [Lee, 1999] – 非負制約付きの任意基底数（本）による低ランク近似 • 限られた数の非負基底ベクトルとそれらの非負係数を抽出 – STFTで得られるパワースペクトログラムに適用 • 頻出するスペクトルパターンとそれらの時間的な強度変化 Time 基底 Amplitude 基底行列アクティベーション行列 (スペクトルパターン) (時間的強度変化) Frequency Frequency 混合された観測行列 (パワースペクトログラム) アクティベーション Time Amplitude : 周波数ビン数 : 時間フレーム数 : 基底数 37

38.

NMFによる低ランク近似と音源分離の例 • 例 Pf. and Cl. ランク1のスペクトログラムの和 38

39.

NMFによる低ランク近似と音源分離の例 • 例 Pf. and Cl. Pf. Cl. – Pf. と Cl. が分離された！ – 実際は30本等の基底で混合信号を分解 • どの基底がPf.でどの基底がCl.かを推定しなければならない • NMF音源分離は「複数の基底を音源ごとにクラスタリングする問題」 • ブラインドでは難しい・・・（挑戦例もあり） 39

40.

NMFのパラメータ推定 • NMFにおける変数の最適化 – 観測とモデルの距離をコストとし変数について最小化 – 距離関数は任意 • 二乗ユークリッド距離，KLダイバージェンス，板倉斎藤擬距離，・・・ – いずれの距離関数でも閉形式の解は未発見 – 効率的な反復更新による最適化アルゴリズム • 補助関数法に基づく乗算型更新式（最も有名） [Lee, 2000] （コスト関数が二乗ユークリッド距離の場合） 40

41.

NMFと音楽信号の相性 • 音楽信号の音源分離の特徴 – 離散的構造限られた数の音高（ピッチ）の重ね合わせ • 重なり合った音をパーツ単位に分割しその線形結合で表現できる限られた数の音価（音の長さ）限られた数の音高（音の高さ）離散的なパーツの重ね合わせで構成されている • 離散的構造を持つ信号の適切な表現 – 音楽信号の「低ランクな時間周波数構造」 – NMFの「低ランク近似分解」 • 音源分離以外にも音楽信号処理で広く活用されている – 自動採譜，ビートトラッキング，超解像，・・・ 41

42.

音楽信号は本当に低ランク？ドラムギターボーカル音声 42

43.

音楽信号は本当に低ランク？ • 低ランク性の指標（行列の構造のシンプルさ） – 累積特異値（cumulative singular value）で確認できる • 行列を特異値分解して得られる特異値を大きい順に並べたときの累積 95% line 7 29 Around 90 累積特異値が95％に達するときの基底の本数（スペクトログラムのサイズは1025x1883） – ボーカル及び音声は楽器音ほど低ランクではない – 楽器音は少ない数の音パーツ（基底）で構成（離散的構造） 43

44.

板倉斎藤擬距離基準NMF（ISNMF） • 板倉斎藤擬距離に基づくNMF[Févotte, 2009] 最小化は等価点対称零平均複素ガウス分布観測の複素数値複素ガウスの分散 • この生成モデルはガウス分布の再生性を用いて分解可 – とおくと 44

45.

板倉斎藤擬距離基準NMF（ISNMF） • パワースペクトログラムは複素ガウスの分散に対応パワーが小＝分散が小殆ど0付近の複素数しか生成しない Frequency bin : パワースペクトログラム但し濃淡が濃い方が大きなパワーを示す Time frame パワーが大＝分散が大大きな振幅の複素数も生成しうる各時間周波数で分散が変動する複素ガウス分布巨視的（マクロ）に考えると分散が変動する為，スペクトログラム全体の密度分布はスーパーガウシアン（カートシスがガウス分布より大）な分布になっている 45

46.

発表の概要 • 研究の背景 – 音源分離問題の工学的意義と技術的俯瞰 • ブラインド音源分離と独立成分分析 – 前提条件，問題解決に利用可能な手掛かり – 周波数領域への適用，耐残響性の向上 • 音楽信号の効率的なモデリング – 非負値行列因子分解による低ランク近似 – 多次元観測音響信号への拡張独立成分分析に由来する信号源分離法の発展（1994年～2012年）非負値行列因子分解に由来する非負行列モデリング法の発展（1999年～2013年） • 独立低ランク行列分析によるブラインド音源分離 – 独立低ランク行列分析 – 多チャネル非負値行列因子分解との関連性 • まとめとさらなる発展 – より高精度なブラインド音源分離を目指して 46

47.

動機 • ICAで仮定される非ガウス音源分布 – 分離行列を推定する唯一の手がかり：音源モデル音源混合系分離行列モデル – 正確な音源モデル高精度な分離行列の推定 • ISNMFは音源の時間周波数構造を分散の変動で表現 • 低ランク時間周波数構造をICAの音源モデルに導入独立低ランク行列分析（ILRMA）[Kitamura, 2016] 47

48.

Frequency IVAの音源モデル Frequency 「低ランク性」の音源モデルへの導入 Time 濃淡が分散の大小分散の大小は音源のパワーの大小 Time 時変な成分周波数方向には一様な分散 Basis Frequency ILRMAの音源モデル Frequency 時間周波数上での分散の変動を NMFで低ランク表現 Time Time Basis 基底数（音源モデルのランク数）は任意 48

49.

提案手法：IVAとNMFを融合した新しいBSS イルマ • 独立低ランク行列分析（independent low-rank matrix analysis: ILRMA） – 時間周波数で分散が変動する複素ガウス分布を仮定複素ガウス分布時間周波数変動分散（低ランク音源モデル）非ガウス分布 Basis Frequency ILRMAの音源モデル Frequency – 分離音源が「互いに独立」かつ「できるだけ低ランク」になる Time Time Basis 基底数（音源モデルのランク数）は任意 49

50.

提案手法：IVAとNMFを融合した新しいBSS • FDICA，IVA，及びILRMAの比較 FDICAの音源モデルスカラー変数の非ガウス分布 IVAの音源モデル ILRMAの音源モデル NMFによる低ランクな時間周波数構造推定信号分離フィルタ低ランクな時間周波数構造を持つように分離フィルタを更新 Frequency 観測信号 Frequency ベクトル変数の多変量な球対称非ガウス分布 Time ILRMAの分離原理 Time 1. 音源間の独立性を最大化（混合信号は独立になっていない） 2. 音源毎の時間周波数構造は低ランク（混合信号の時間周波数構造は高ランク） 50

51.

ILRMAのコスト関数と潜在変数の導入 • ILRMAのコスト（対数尤度）関数 IVAのコスト関数（空間分離フィルタの推定に寄与） – IVAの反復更新式 – NMFの反復更新式分離信号： ISNMFのコスト関数（音源モデルの推定に寄与） 2つの交互最適化反復で全変数を容易に推定可能 • 音源の適切なランク数を潜在変数で推定することも可能潜在変数の導入 0~1の値をとる潜在変数 – Ex. ボーカルはあまり低ランクにならず，ドラムは低ランク 51

52.

ILRMAの最適化 • ILRMAの反復更新式（最尤推定） – NMF変数の最適化は補助関数法に基づく乗法更新式空間分離フィルタと分離信号の更新音源モデルの更新但し， , は番目の要素のみ1で他は0の縦ベクトル – 反復で尤度が単調増加することが保証されている • 必ずどこかの局所解（停留点）へ収束 52

53.

ILRMAの更新のイメージ • 音源毎の空間情報（空間モデル）と各音源の音色構造（音源モデル）を交互に学習音源モデル音源モデルの学習空間分離フィルタの学習 NMF の更新 NMF 混合信号分離信号 – 音源毎の時間周波数構造を正確に捉えることで，独立性基準での線形時不変な空間分離の性能向上が期待できる 53

54.

IVA，多チャネルNMF，ILRMAの関連性 • 多チャネルNMF（MNMF） [Sawada, 2013] からみると – 混合系の推定を分離行列の推定問題に変換（高速，安定）混合系分離行列 MNMF ILRMA • IVAからみると Basis Time Frequency Frequency – 音源モデルの基底数を1から任意数に拡張 Time Basis IVA ILRMA 54

55.

IVA，多チャネルNMF，ILRMAの関連性 • 独立に発展したIVAと多チャネルNMFが実は密接に関連している事実を世界で初めて理論的に証明空間モデル柔軟限定的 – 証明の詳細はEA原稿3.4節に記載多チャネル NMF 空間相関行列をランク1行列に制限分離行列に変数変換 IVA NMFの音源モデルを導入限定的音源モデル ILRMA 柔軟 55

56.

音楽音源分離実験の条件 • 実験条件音源信号窓長（FFT長）シフト長基底数主観評価値 SiSECのプロ音楽信号に，RWCP収録のマイクアレーインパルス応答で畳み込んで作成，2チャンネルで2音源の混合信号 512 ms，ハニング窓 128 ms (1/4シフト) 1音源につき30本（ILRMA1），全音源で60本（ILRMA2） SDR改善値（音質と分離度合いを含む総合的な分離性能） Impulse response E2A (reverberation time: 300 ms) Source 1 Source 2 Impulse response JR2 (reverberation time: 470 ms) Source 1 Source 2 2m 50 50 5.66 cm 2m 60 60 5.66 cm 56

57.

実験結果： fort_minor-remember_the_name SDR improvement [dB] Good E2A （300 ms） 16 Violin synth. 12 8 4 0 -4 -8 Good 16 SDR improvement [dB] Poor JR2 （470 ms） Poor Vocals Directional clustering IVA Violin synth. Ozerov’s Ozerov’s Sawada’s Proposed Proposed Sawada’s MNMF MNMF with MNMF method method MNMF random w/o with initialized by initialization partitioning partitioning proposed function function method Vocals 12 8 4 0 -4 -8 Directional clustering IVA Ozerov’s Ozerov’s Sawada’s Proposed Proposed Sawada’s MNMF MNMF with MNMF method method MNMF random w/o with initialized by initialization partitioning partitioning proposed function function method 57

58.

実験結果： ultimate_nz_tour SDR improvement [dB] Good E2A （300 ms） 20 Guitar 15 10 5 0 -5 Good 20 SDR improvement [dB] Poor JR2 （470 ms） Poor Synth. Directional clustering IVA Guitar Ozerov’s Ozerov’s Sawada’s Proposed Proposed Sawada’s MNMF MNMF with MNMF method method MNMF random w/o with initialized by initialization partitioning partitioning proposed function function method Synth. 15 10 5 0 -5 Directional clustering IVA Ozerov’s Ozerov’s Sawada’s Proposed Proposed Sawada’s MNMF MNMF with MNMF method method MNMF random w/o with initialized by initialization partitioning partitioning proposed function function method 58

59.

各手法の性能と計算コストの比較例 • SiSECデータベース収録のプロ音楽信号 – ファイル名: bearlin-roads__snip_85_99，14 s（16 kHzサンプル） – 音源: acoustic_guit_main, bass, vocalsの3音源 Good 12 SDR improvement [dB] 10 15.1 s 60.7 s 8 11.5 s 6 7647.3 s 4 IVA MNMF ILRMA （潜在変数無） ILRMA （潜在変数有） 2 0 Poor -2 0 100 200 Iteration steps 300 400 59

60.

各手法の性能の主観評価による比較 • 音声信号と音楽信号の分離結果を主観評価で比較 – 聴覚の正常な20代の男性10名女性4名 – サーストンの一対比較法（間隔尺度） 1.6 Subjective score 1.2 Speech signals Music signals 0.8 0.4 0.0 -0.4 -0.8 -1.2 IVA Multichannel NMF ILRMA 60

61.

音源分離デモンストレーション：音楽分離の例 • 音楽信号 – “Ultimate NZ tour”，3音源 – イコライザ（音色の変更）では不可能な処理提案法によるパートごとの音源分離 Vocal Keyboard Guitar Vocal Keyboard 3つのパートが鳴っていること Guitar に注意して聞いてください他のデモ：http://d-kitamura.net/demo.htm 61

http://d-kitamura.net/demo.htm

62.

災害現場でのヘビ型被害者捜索ロボット • 内閣府革新的研究開発推進プログラム（ImPACT） – 災害現場での被害者捜索用ヘビ型ロボットに応用 [Bando, 2016] • 成果：プレスリリース，論文採録処理前の観測音（ロボットの駆動ノイズが大きい）提案法による音源分離強調された音声信号 62

63.

発表の概要 • 研究の背景 – 音源分離問題の工学的意義と技術的俯瞰 • ブラインド音源分離と独立成分分析 – 前提条件，問題解決に利用可能な手掛かり – 周波数領域への適用，耐残響性の向上 • 音楽信号の効率的なモデリング – 非負値行列因子分解による低ランク近似 – 板倉斎藤擬距離に基づく最尤推定独立成分分析に由来する信号源分離法の発展（1994年～2012年）非負値行列因子分解に由来する非負行列モデリング法の発展（1999年～2013年） • 独立低ランク行列分析によるブラインド音源分離 – 独立低ランク行列分析 – 多チャネル非負値行列因子分解との関連性 • まとめとさらなる発展 – より高精度なブラインド音源分離を目指して 63

64.

開拓された新しいブラインド音源分離の形 • 潜在因子への構造モデルの導入による発展可能性 – 確率分布モデルでは困難だった詳細な「操作（induce）」が可能領域の指定 – ユーザとのインタラクション • ユーザが分離の途中で構造モデルに介入 • 例：映画撮影等のプロ用途の音声強調 – 実現可能な学習データの活用 • 音楽信号では「楽譜」は強力な事前情報時間区間の指定 • 楽譜の構造を直接モデルに反映可能 • 例：芸術性を損なわない超高品質な音楽編集 • その他の音源モデルの導入や教師あり手法への拡張周波数スパースグループスパース周波数周波数低ランク時間時間時間 64

65.

参考文献（アルファベット順）（1/3） • [Comon, 1994]: P. Comon, “Independent component analysis, a new concept?” Signal Process., vol. 36, no. 3, pp. 287–314, 1994. • [Févotte, 2009]: C. Févotte, N. Bertin, and J.-L.Durrieu, “Nonnegative matrix factorization with the Itakura-Saito divergence. With application to music analysis,” Neural Comput., vol. 21, no. 3, pp. 793–830, 2009. • [Hiroe, 2006]: A. Hiroe, “Solution of permutation problem in frequency domain ICA using multivariate probability density functions,” Proc. Int. Conf. Independent Compon. Anal. Blind Source Separation, 2006, pp. 601–608. • [Kim, 2006]: T. Kim, T. Eltoft, and T.-W. Lee, “Independent vector analysis: An extension of ICA to multivariate components,” Proc. Int. Conf. Independent Compon. Anal. Blind Source Separation, 2006, pp. 165–172. • [Kim, 2007]: T. Kim, H. T. Attias, S.-Y. Lee, and T.-W. Lee, “Blind source separation exploiting higher-order frequency dependencies,” IEEE Trans. Audio, Speech, Lang. Process., vol. 15, no. 1, pp. 70–79, 2007. • [Kitamura, 2016]: D. Kitamura, H. Saruwatari, H. Kameoka, Y. Takahashi, K. Kondo and S. Nakamura, “Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 24, no. 9, pp. 1626–1641, 2016. 65

66.

参考文献（アルファベット順）（2/3） • [Lee, 1999]: D. D. Lee and H. S. Seung, “Learning the parts of objects by non-negative matrix factorization,” Nature, vol. 401, pp. 788–791, 1999. • [Lee, 2000]: D. D. Lee and H. S. Seung, “Algorithms for non-negative matrix factorization,” Proc. Adv. Neural Inform. Process. Syst., 2000, vol. 13, pp. 556–562. • [Ono, 2011]: N. Ono, “Stable and fast update rules for independent vector analysis based on auxiliary function technique,” Proc. IEEE Workshop on Applications of Signal Process. to Audio and Acoust., 2011, pp. 189–192. • [Ono, 2012]: T. Ono, N. Ono, and S. Sagayama, “User-guided independent vector analysis with source activity tuning,” Proc. ICASSP, 2012, pp. 2417–2420. • [Ozerov, 2010]: A. Ozerov and C. Févotte, “Multichannel nonnegative matrix factorization in convolutive mixtures for audio source separation,” IEEE Trans. Audio, Speech, and Lang. Process., vol. 18, no. 3, pp. 550–563, 2010. • [Saruwatari, 2000]: S. Kurita, H. Saruwatari, S. Kajita, K. Takeda, and F. Itakura, “Evaluation of blind signal separation method using directivity pattern under reverberant conditions,” Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2000, pp. 3140–3143. • [Saruwatari, 2006]: H. Saruwatari, T. Kawamura, T. Nishikawa, A. Lee, and K. Shikano, “Blind source separation based on a fast-convergence algorithm combining ICA and beamforming,” IEEE Trans. Audio, Speech, Lang. Process., vol. 14, no. 2, pp. 666–678, Mar. 2006. 66

67.

参考文献（アルファベット順）（3/3） • [Sawada, 2004]: H. Sawada, R. Mukai, S. Araki, and S.Makino, “Convolutive blind source separation for more than two sources in the frequency domain,” Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2004, pp. III-885–III-888. • [Sawada, 2013]: H. Sawada, H.Kameoka, S.Araki, and N. Ueda, “Multichannel extensions of non-negative matrix factorization with complex-valued data,” IEEE Trans. Audio, Speech, Lang. Process., vol. 21, no. 5, pp. 971–982, 2013. • [Smaragdis, 1998]: P. Smaragdis, “Blind separation of convolved mixtures in the frequency domain,” Neurocomputing, vol. 22, pp. 21–34, 1998. 67

独立低ランク行列分析に基づくブラインド音源分離（Blind source separation based on independent low-rank matrix analysis）

Daichi Kitamura

関連スライド

音源分離技術の基礎と応用～音源分離ﾁｮｯﾄﾜｶﾙになるための手引き～

音源分離における音響モデリング（Acoustic modeling in audio source separation）

Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法（Jupyter notebookも）

独立低ランク行列分析に基づく音源分離とその発展（Audio source separation based on independent low-rank matrix analysis and its extensions）

音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sound media signal processing and its applications

基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)

各ページのテキスト