独立低ランク行列分析に基づく音源分離とその発展（Audio source separation based on independent low-rank matrix analysis and its extensions）

1.

信号処理研究会 2021年8月24日［招待講演］独立低ランク行列分析に基づく音源分離とその発展 Audio source separation based on independent low-rank matrix analysis and its extensions 香川高等専門学校電気情報工学科助教北村大地

2.

研究の背景 • 音源分離（audio source separation） – 複数の音源が混合された信号を音源毎に分離する信号処理 – 音声認識，雑音抑圧，補聴器，会議アーカイブ etc. – ほぼ全ての音響システムのフロントエンドに応用可能 • 観測信号から有意な因子を抽出する技術 – 知能情報学の一大トピック • 例：音楽信号の音源分離音楽CD 音源分離実演奏の録音 – ユーザによる既存音楽の再編集，自動採譜技術，楽器演奏における教育支援，超臨場感音場再現の制御等 2

3.

研究の背景 • ブラインド音源分離（blind source separation: BSS） – 混合系や音源情報が未知（事前学習をしない）混合系分離系 • 優決定条件（マイク数≧音源数）BSS 本日の内容 – 音源間の独立性に基づく分離系の推定 – 独立成分分析（independent component analysis: ICA）の系譜 • 劣決定条件（マイク数＜音源数）BSS – 混合系の推定＋ポストフィルタやソフトマスク – Sparse coding，到来方向クラスタリング，空間相関行列推定等 • 単一チャネル条件（マイク数＝1）BSS – 各音源の時間周波数成分の推定 – 非負値行列因子分解（nonnegative matrix factorization: NMF）等 3

4.

音源分離の歴史と発展（本発表に関連する手法のみ掲載）優決定条件 1994 劣決定条件独立成分分析 (ICA) スペクトル減算時間周波数マスキングその他各種 [Comon]，[Bell and Sejnowski], [Cardoso], [Amari], [Cichocki], … 1998 1999 周波数領域ICA (FDICA) [Morgan], [Sawada], … 2006 ビームフォーミングスパースコーディング時間周波数マスキング到来方向クラスタリングその他各種 [Smaragdis] パーミュテーション問題の解決 [Saruwatari], [Murata], 独立ベクトル分析 (IVA) [偉大なる先人達] [Hiroe], [Kim] 2009 2010 2011 2012 2013 単一チャネル条件 [偉大なる先人達] 非負値行列因子分解 (NMF) [Lee] 数理モデルの拡張生成モデル的解釈の発見 [Virtanen], [Smaragdis], [Kameoka], [Ozerov], … 板倉斎藤擬距離NMF (ISNMF) 空間相関行列モデル補助関数IVA (AuxIVA) [Ono] [Févotte] [Duong] 時変複素ガウスIVA [Ono] 多チャネルNMF [Ozerov, Sawada] 2016 独立低ランク行列分析 (ILRMA) [Kitamura] 2018 多チャネルNMF+DNN [Nugraha] 深層ニューラルネットワーク (DNN) [Hinton], … 独立深層学習行列分析 (IDLMA) [Mogami] 2020 スペクトログラム無矛盾ILRMA [Kitamura] 4

5.

本日の発表の概要 • ICAに基づく空間分離行列（空間モデル）の推定 – 周波数領域ICA，パーミュテーション問題，独立ベクトル分析 • NMFに基づく音源時間周波数構造（音源モデル）の推定 – NMFによる低ランク近似と生成モデル，多チャネルNMF • 独立低ランク行列分析（ILRMA） – ICA空間モデル＋NMF音源モデル，多チャネルNMFとの関係 • 独立深層学習行列分析（IDLMA） – NMF音源モデル→DNN音源モデル（教師あり拡張） • スペクトログラム無矛盾ILRMA（consistent ILRMA） – 無矛盾性によるパーミュテーション問題緩和，ILRMAへの導入 • まとめ 5

6.

本日の発表の概要 • ICAに基づく空間分離行列（空間モデル）の推定 – 周波数領域ICA，パーミュテーション問題，独立ベクトル分析 • NMFに基づく音源時間周波数構造（音源モデル）の推定 – NMFによる低ランク近似と生成モデル，多チャネルNMF • 独立低ランク行列分析（ILRMA） – ICA空間モデル＋NMF音源モデル，多チャネルNMFとの関係 • 独立深層学習行列分析（IDLMA） – NMF音源モデル→DNN音源モデル（教師あり拡張） • スペクトログラム無矛盾ILRMA（consistent ILRMA） – 無矛盾性によるパーミュテーション問題緩和，ILRMAへの導入 • まとめ 6

7.

音源分離の歴史と発展（本発表に関連する手法のみ掲載）優決定条件 1994 劣決定条件独立成分分析 (ICA) スペクトル減算時間周波数マスキングその他各種 [Comon]，[Bell and Sejnowski], [Cardoso], [Amari], [Cichocki], … 1998 1999 周波数領域ICA (FDICA) [Morgan], [Sawada], … 2006 ビームフォーミングスパースコーディング時間周波数マスキング到来方向クラスタリングその他各種 [Smaragdis] パーミュテーション問題の解決 [Saruwatari], [Murata], 独立ベクトル分析 (IVA) [偉大なる先人達] [Hiroe], [Kim] 2009 2010 2011 2012 2013 単一チャネル条件 [偉大なる先人達] 非負値行列因子分解 (NMF) [Lee] 数理モデルの拡張生成モデル的解釈の発見 [Virtanen], [Smaragdis], [Kameoka], [Ozerov], … 板倉斎藤擬距離NMF (ISNMF) 空間相関行列モデル補助関数IVA (AuxIVA) [Ono] [Févotte] [Duong] 時変複素ガウスIVA [Ono] 多チャネルNMF [Ozerov, Sawada] 2016 独立低ランク行列分析 (ILRMA) [Kitamura] 2018 多チャネルNMF+DNN [Nugraha] 深層ニューラルネットワーク (DNN) [Hinton], … 独立深層学習行列分析 (IDLMA) [Mogami] 2020 スペクトログラム無矛盾ILRMA [Kitamura] 7

8.

音源間の独立性に基づくBSS：ICA • 独立成分分析（independent component analysis: ICA） – 混合行列が未知の条件で分離行列音源信号 1. 互いに独立 2. 非ガウス分布混合行列を推定混合信号分離行列 3. 可逆で時不変 – 3つの仮定を用いて分離行列を推定 • 1. 独立成分は互いに独立（音源は多くの場合独立） • 2. 独立成分は非ガウスな分布から生成（音声や音楽は非ガウス分布） • 3. 混合行列は可逆で時不変（優決定，音源やマイクは移動しない）逆行列 8

9.

音源間の独立性に基づくBSS：ICA • ICAの推定理論 – 推定信号間の独立性を最大化近づける – 対数尤度関数：音源の非ガウスな分布未知なものなので，適当に与える必要がある（音声はラプラス分布等） 12

10.

音源間の独立性に基づくBSS：ICA • ICAの不確定性 – 2つの任意性が存在 • 1. 独立成分の分散（パワー）は決定できない（音量が分からない） • 2. 独立成分の順序は決定できない（順番が変わりうる）独立成分混合信号混合行列独立成分推定信号分離行列混合信号混合行列推定信号分離行列 11

11.

ICAに基づくBSSの耐残響性の向上 • 周波数領域ICA（FDICA）[Smaragdis, 1998] … 周波数領域の時不変瞬時混合行列 … … Frequency bin – 各周波数ビンの複素時系列に対して独立なICAを適用スペクトログラム ICA1 ICA2 ICA3 ICA Time frame 逆行列 11

12.

耐残響性の向上：周波数領域ICA（FDICA） • FDICAにおけるパーミュテーション問題 – 各周波数ビンで推定信号の順序がバラバラになる – 様々なパーミュテーションソルバが検討された分離信号1 音源1 観測1 ICA Time 音源2 Permutation Solver 分離信号2 観測2 全て時間周波数領域の信号 ※分散（スケール）もバラバラになるが，これは容易に戻すことが可能 12

13.

FDICAにおけるパーミュテーション解決法 • 独立ベクトル分析（independent vector analysis: IVA）[Hiroe, 2006], [Kim, 2006] – – – – 分離フィルタ推定（周波数毎のICAの最適化） 1つの問題の最適化で実現パーミュテーション問題の解決（ポスト処理） ICAを多変量（多次元）分布モデルへ拡張（）スカラー周波数ベクトル周波数ベクトルの確率変数に対するICA 多変量非ガウス分布混合行列観測信号分離行列推定信号互いに独立 … … … … … 互いに高次相関を持つ同じ音源が一つの推定信号に自然にまとまる 13

14.

IVAにおける音源分布と高次相関 • FDICAの仮定する音源の事前分布 – 例：零平均単変量複素ラプラス分布×周波数（全て独立）周波数毎に独立な音源分布 • IVAの仮定する音源の事前分布 – 例：零平均多変量複素ラプラス分布周波数間で高次相関をもつ音源分布分散共分散行列 – （互いに無相関）の場合でも， • 球対称な分布を仮定していることに起因 • 高次相関性（共起性）が生じるが周波数間で依存のときベクトルノルムにのみ依存 14

15.

IVAにおける音源分布と高次相関 • 図は [Kim, 2007] より引用互いに独立な二変数ラプラス分布ｃ x1とx2は互いに独立なラプラス分布（条件付き分布はラプラス分布）球対称な二変数ラプラス分布ｃｃ x1とx2は互いに無相関だが依存関係がある • 球対称音源分布の（かなりざっくりとした）定性的な説明 – 周波数間で同じ時間変動を持つ成分を一つの音源としてまとめる傾向にあるパーミュテーション問題の回避 15

16.

FDICAとIVAの分離原理比較 • FDICAの分離原理推定信号 STFT 分離フィルタ推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを更新 Time Frequency 観測信号 Frequency 中心極限定理より，混合信号本来の音源信号ははガウス分布に近い信号非ガウス分布に従うスカラーの確率変数推定信号の現在の分布形状非ガウスな音源分布互いに独立 Time • IVAの分離原理 Frequency 推定信号分離フィルタ STFT 推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィルタを更新 Time Frequency 観測信号ベクトルの多変量確率変数非ガウスな球対称多変量推定信号の音源分布現在の分布形状互いに独立 Time 16

17.

より高速・安定なIVA • 初期のIVAの分離行列の最適化は自然勾配法 – ステップサイズパラメータを調整する必要あり • 補助関数法に基づくIVA（auxiliary-function-based IVA: AuxIVA） – 反復射影法（iterative projection: IP） – 分離行列を行毎（毎）に更新更新固定固定固定更新固定固定分散番目の要素が1，他が0の縦ベクトル … … … 固定 [Ono, 2011] 更新の更新 17

18.

本日の発表の概要 • ICAに基づく空間分離行列（空間モデル）の推定 – 周波数領域ICA，パーミュテーション問題，独立ベクトル分析 • NMFに基づく音源時間周波数構造（音源モデル）の推定 – NMFによる低ランク近似と生成モデル，多チャネルNMF • 独立低ランク行列分析（ILRMA） – ICA空間モデル＋NMF音源モデル，多チャネルNMFとの関係 • 独立深層学習行列分析（IDLMA） – NMF音源モデル→DNN音源モデル（教師あり拡張） • スペクトログラム無矛盾ILRMA（consistent ILRMA） – 無矛盾性によるパーミュテーション問題緩和，ILRMAへの導入 • まとめ 18

19.

音源分離の歴史と発展（本発表に関連する手法のみ掲載）優決定条件 1994 劣決定条件独立成分分析 (ICA) スペクトル減算時間周波数マスキングその他各種 [Comon]，[Bell and Sejnowski], [Cardoso], [Amari], [Cichocki], … 1998 1999 周波数領域ICA (FDICA) [Morgan], [Sawada], … 2006 ビームフォーミングスパースコーディング時間周波数マスキング到来方向クラスタリングその他各種 [Smaragdis] パーミュテーション問題の解決 [Saruwatari], [Murata], 独立ベクトル分析 (IVA) [偉大なる先人達] [Hiroe], [Kim] 2009 2010 2011 2012 2013 単一チャネル条件 [偉大なる先人達] 非負値行列因子分解 (NMF) [Lee] 数理モデルの拡張生成モデル的解釈の発見 [Virtanen], [Smaragdis], [Kameoka], [Ozerov], … 板倉斎藤擬距離NMF (ISNMF) 空間相関行列モデル補助関数IVA (AuxIVA) [Ono] [Févotte] [Duong] 時変複素ガウスIVA [Ono] 多チャネルNMF [Ozerov, Sawada] 2016 独立低ランク行列分析 (ILRMA) [Kitamura] 2018 多チャネルNMF+DNN [Nugraha] 深層ニューラルネットワーク (DNN) [Hinton], … 独立深層学習行列分析 (IDLMA) [Mogami] 2020 スペクトログラム無矛盾ILRMA [Kitamura] 19

20.

非負値行列の低ランク近似理論 • 非負値行列因子分解（NMF） [Lee, 1999], [Lee, 2000] – 非負制約付きの任意基底数（本）による低ランク近似 • 限られた数の非負基底ベクトルとそれらの非負係数を抽出 – STFTで得られるパワースペクトログラムに適用 • 頻出するスペクトルパターンとそれらの時間的な強度変化 Time 基底 Amplitude 基底行列アクティベーション行列 (スペクトルパターン) (時間的強度変化) Frequency Frequency 観測行列 (パワースペクトログラム) アクティベーション Time Amplitude : 周波数ビン数 : 時間フレーム数 : 基底数 20

21.

NMFのパラメータ推定 • NMFにおける変数の最適化 – 観測とモデルの距離をコストとし最小化 – 距離関数は任意 • 二乗ユークリッド距離，KLダイバージェンス，板倉斎藤擬距離，・・・ – いずれの距離関数でも閉形式の解は未発見 – 効率的な反復更新による最適化アルゴリズム • 補助関数法に基づく乗算型更新式（最も有名） [Lee, 2000] （コスト関数が二乗ユークリッド距離の場合） 21

22.

板倉斎藤擬距離基準NMF（ISNMF） • 従来のNMF分解の問題点 – データ行列（非負実数）は1本の基底と1本のアクティベーションからなるランク1行列の線形結合として表現 – は振幅スペクトログラムなのか？あるいはパワーなのか？ – いずれにしても線形結合（加法性）は成り立たない • 時間波形の混合は複素スペクトログラムの加法 – 位相スペクトログラムはどうするのか？ • ISNMFでは下記のように解釈される – 複素スペクトログラムに対する生成モデルを与えられる • 個の複素数成分の線形結合を仮定（） – 位相は一様分布でモデル化（＝生成モデルは原点対称分布） • 無情報なので最尤推定量は観測の位相そのもの 22

23.

板倉斎藤擬距離基準NMF（ISNMF） • ISNMF[Févotte, 2009] 最小化は等価原点対称零平均複素ガウス分布観測の複素数値複素ガウスの分散 • この生成モデルはガウス分布の再生性を用いて分解可 – とおくと 23

24.

板倉斎藤擬距離基準NMF（ISNMF） • を複素スペクトログラムとすると各時間周波数要素は複素要素を個足し合わせたもの時間周波数要素（複素数）零平均，分散の原点対称複素ガウスこれらの複素ガウス分布は互いに独立（分散は異なる） – 複素ガウス分布の確率変数の和なのでも複素ガウス分布 • ガウス分布の再生性 • の複素ガウス分布の分散は – 時間周波数毎に分散が変動する複素ガウス分布生成モデル 24

25.

板倉斎藤擬距離基準NMF（ISNMF） • パワースペクトログラムは複素ガウスの分散に対応パワーが小＝分散が小殆ど0付近の複素数しか生成しない Frequency bin : パワースペクトログラム濃淡が濃い方が大きなパワーを示す Time frame パワーが大＝分散が大大きな振幅の複素数も生成しうる各時間周波数で分散が変動する複素ガウス分布巨視的（マクロ）に考えると分散が変動する為，スペクトログラム全体の密度分布はスーパーガウシアン（カートシスがガウス分布より大）な分布になっている 25

26.

NMFの多チャネル信号への拡張 • NMFを多チャネルの信号に適用できれば面白い – アレー信号処理やICAのように空間特徴量を活用できる • アクティベーション共有型多チャネルNMF [Kitamura, 2014] – チャネル間の音量比（アクティベーション）を保つNMF – 空間特徴量を壊すことなく低ランク近似 • DOAクラスタリングとSNMFのハイブリッド法 [Kitamura, 2015] – 音楽信号を音量比でクラスタリングしてSNMFを適用 – クラスタリングで欠損した成分を外挿・復元しながら音源分離 • 多チャネルNMF [Ozerov, 2010], [Sawada, 2013] – 音源の時間周波数構造を低ランク近似し，そのパーツを空間特徴量で音源毎にクラスタリング – 理論的には劣決定条件（マイク＜音源数）でもBSS可能 26

27.

NMFの多チャネル信号への拡張 • 多チャネルNMF（multichannel NMF: MNMF） [Sawada, 2013] 多チャネルベクトル時間周波数毎の観測チャンネル間相関瞬時空間相関行列音源周波数毎のクラスタリング関数チャンネル間相関基底行列アクティベーション行列強度変化スペクトルパターン多チャネル観測信号空間モデル音源モデル音源毎の空間的な違い全音源の音色構造 27

28.

空間相関行列とは • 空間相関行列又は空間共分散行列 [Duong, 2010] – – – – 「Full-covariance model」や「Duong model」等とも呼ばれる音源とマイク間の伝達系と音響的拡散度合を表す特徴量ソースイメージステアリングベクトルの拡張観測信号中の番目の音源成分のみをと表すとき音源毎の空間共分散時変な音源の分散（パワースペクトログラム）観測の空間共分散マイクロホンへの伝達系に寄与する時不変な成分（空間相関行列）時間周波数で分散共分散が変動する多変量ガウス分布観測の生成モデル多チャネル Wiener filter 時変分散と音源毎の空間共分散から音源分離が可能（劣決定も可） 28

29.

空間相関行列のランク • 空間相関行列：瞬時空間相関の期待値の時不変成分音源毎の空間共分散 – 時不変空間相関行列のランクが1とは？伝達系が時不変な1本の空間基底でモデル化できる – 時不変な1本の空間基底：ステアリングベクトルランク1 空間モデル – 時不変空間相関行列のランクが1より大きい（フルランク）音響信号の拡散，音響放射特性の変動，長い残響 • ステアリングベクトルのような1本の空間基底では表現不可 • 複数本の空間基底になる（空間基底の数＝空間相関行列のランク） • 周波数領域での瞬時混合仮定は成り立たないという瞬時混合の式で書けない 29

30.

NMFの多チャネル信号の最適化 • MNMF [Sawada, 2013] はISNMFの純粋な多次元拡張 • 尤度関数 – 時間周波数毎に分散変動する零平均多変量複素ガウス分布 • 負の対数尤度関数 – Logdet divergence [Kulis, 2006]やStein’s loss [James, 1961]と呼ばれる – 板倉斎藤擬距離の多次元版観測に対して，パラメタをとおくと – 変数の最適化更新式は計算量が比較的大きい 30

31.

本日の発表の概要 • ICAに基づく空間分離行列（空間モデル）の推定 – 周波数領域ICA，パーミュテーション問題，独立ベクトル分析 • NMFに基づく音源時間周波数構造（音源モデル）の推定 – NMFによる低ランク近似と生成モデル，多チャネルNMF • 独立低ランク行列分析（ILRMA） – ICA空間モデル＋NMF音源モデル，多チャネルNMFとの関係 • 独立深層学習行列分析（IDLMA） – NMF音源モデル→DNN音源モデル（教師あり拡張） • スペクトログラム無矛盾ILRMA（consistent ILRMA） – 無矛盾性によるパーミュテーション問題緩和，ILRMAへの導入 • まとめ 31

32.

音源分離の歴史と発展（本発表に関連する手法のみ掲載）優決定条件 1994 劣決定条件独立成分分析 (ICA) スペクトル減算時間周波数マスキングその他各種 [Comon]，[Bell and Sejnowski], [Cardoso], [Amari], [Cichocki], … 1998 1999 周波数領域ICA (FDICA) [Morgan], [Sawada], … 2006 ビームフォーミングスパースコーディング時間周波数マスキング到来方向クラスタリングその他各種 [Smaragdis] パーミュテーション問題の解決 [Saruwatari], [Murata], 独立ベクトル分析 (IVA) [偉大なる先人達] [Hiroe], [Kim] 2009 2010 2011 2012 2013 単一チャネル条件 [偉大なる先人達] 非負値行列因子分解 (NMF) [Lee] 数理モデルの拡張生成モデル的解釈の発見 [Virtanen], [Smaragdis], [Kameoka], [Ozerov], … 板倉斎藤擬距離NMF (ISNMF) 空間相関行列モデル補助関数IVA (AuxIVA) [Ono] [Févotte] [Duong] 時変複素ガウスIVA [Ono] 多チャネルNMF [Ozerov, Sawada] 2016 独立低ランク行列分析 (ILRMA) [Kitamura] 2018 多チャネルNMF+DNN [Nugraha] 深層ニューラルネットワーク (DNN) [Hinton], … 独立深層学習行列分析 (IDLMA) [Mogami] 2020 スペクトログラム無矛盾ILRMA [Kitamura] 32

33.

動機 • ICAで仮定される非ガウス音源分布 – 分離行列を推定する唯一の手がかり：音源モデル音源混合行列分離行列モデル – 正確な音源モデル高精度な分離行列の推定 • ISNMFは音源の時間周波数構造を分散の変動で表現 • 低ランク時間周波数構造をICAの音源モデルに導入独立低ランク行列分析（ILRMA）[Kitamura, 2016] 33

34.

Frequency IVAの音源モデル Frequency 「低ランク性」の音源モデルへの導入 Time 濃淡が分散の大小分散の大小は音源のパワーの大小 Time 時変な成分周波数方向には一様な分散 Basis Frequency ILRMAの音源モデル Frequency 時間周波数上での分散の変動を ISNMFで低ランク表現 Time Time Basis 基底数（音源モデルのランク数）は任意 34

35.

IVAとNMFを融合したBSS イルマ • 独立低ランク行列分析（independent low-rank matrix analysis: ILRMA） – 時間周波数で分散が変動する複素ガウス分布を仮定複素ガウス分布時間周波数変動分散（低ランク音源モデル）非ガウス分布 Basis Frequency ILRMAの音源モデル Frequency – 分離音源が「互いに独立」かつ「できるだけ低ランク」になる Time Time Basis 基底数（音源モデルのランク数）は任意 35

36.

IVAとNMFを融合したBSS • FDICA，IVA，及びILRMAの比較 FDICAの音源モデルスカラー変数の非ガウス分布 IVAの音源モデル ILRMAの音源モデル NMFによる低ランクな時間周波数構造推定信号分離フィルタ低ランクな時間周波数構造を持つように分離フィルタを更新 Frequency 観測信号 Frequency ベクトル変数の多変量な球対称非ガウス分布 Time ILRMAの分離原理 Time 1. 音源間の独立性を最大化（混合信号は独立になっていない） 2. 音源毎の時間周波数構造は低ランク（混合信号の時間周波数構造は高ランク） 36

37.

ILRMAのコスト関数と潜在変数の導入 • ILRMAのコスト（対数尤度）関数 IVAのコスト関数（空間分離フィルタの推定に寄与） – IVAの反復更新式 – NMFの反復更新式分離信号： ISNMFのコスト関数（音源モデルの推定に寄与） 2つの交互最適化反復で全変数を容易に推定可能 • 音源の適切なランク数を潜在変数で推定することも可能潜在変数の導入 0~1の値をとる潜在変数 – 例：ボーカルはあまり低ランクにならず，ドラムは低ランク 37

38.

ILRMAの最適化 • ILRMAの反復更新式（最尤推定） – 分離行列の最適化は補助関数IVAの反復射影法 [Ono, 2011] – NMF変数の最適化は補助関数法に基づく乗法更新式空間分離フィルタと分離信号の更新音源モデルの更新反復射影法（IP）但し， , は番目の要素のみ1で他は0の縦ベクトル – 反復更新における尤度の単調非減少が保証されている 38

39.

ILRMAの更新のイメージ • 音源毎の空間情報（空間モデル）と各音源の音色構造（音源モデル）を交互に学習音源モデル音源モデルの学習空間分離フィルタの学習 NMF の更新 NMF 混合信号分離信号 – 音源毎の時間周波数構造を正確に捉えることで，独立性基準での線形時不変な空間分離の性能向上が期待できる 39

40.

IVA・MNMF・ILRMAの関連性 • MNMF [Sawada, 2013] からみると – 混合系の推定を分離行列の推定に変換（高速・初期値頑健）混合系分離行列 MNMF ILRMA • IVAからみると Basis Time Frequency Frequency – 音源モデルの基底数を1から任意数に拡張 Time Basis IVA ILRMA 40

41.

IVA・MNMF・ILRMAの関連性空間モデル柔軟限定的 • 独立に発展したIVAとMNMFの2つの流れが，実は密接に関連している事実を発見多チャネル NMF 空間相関行列をランク1行列に制限分離行列に変数変換 IVA NMFの音源モデルを導入限定的音源モデル ILRMA 柔軟 41

42.

音楽音源分離実験の条件 • 実験条件音源信号窓長（FFT長）シフト長基底数主観評価値 SiSECのプロ音楽信号に，RWCP収録のマイクアレーインパルス応答で畳み込んで作成，2チャンネルで2音源の混合信号 512 ms，ハニング窓 128 ms (1/4シフト) 1音源につき30本（ILRMA1），全音源で60本（ILRMA2） SDR改善値（音質と分離度合いを含む総合的な分離性能） Impulse response E2A (reverberation time: 300 ms) Source 1 Source 2 Impulse response JR2 (reverberation time: 470 ms) Source 1 Source 2 2m 50 50 5.66 cm 2m 60 60 5.66 cm 42

43.

実験結果： fort_minor-remember_the_name E2A （T60 = 300 ms） SDR improvement [dB] Good 16 Violin synth. 12 8 4 0 -4 -8 Good 16 Poor SDR improvement [dB] Poor JR2 （T60 = 470 ms） Vocals Directional clustering 補助関数 IVA Violin synth. Ozerov’s Ozerov’s Sawada’s ILRMA ILRMA Sawada’s MNMF MNMF with MNMF w/o with MNMF random partitioning partitioning initialized by initialization function function ILRMA Vocals 12 8 4 0 -4 -8 Directional clustering 補助関数 IVA Ozerov’s Ozerov’s Sawada’s ILRMA Sawada’s ILRMA MNMF MNMF with MNMF w/o with MNMF random partitioning partitioning initialized by initialization function function ILRMA 43

44.

実験結果： ultimate_nz_tour E2A （T60 = 300 ms） SDR improvement [dB] Good 20 Guitar 15 10 5 0 -5 Good 20 Poor SDR improvement [dB] Poor JR2 （T60 = 470 ms） Synth. Directional clustering 補助関数 IVA Guitar Ozerov’s Ozerov’s Sawada’s ILRMA ILRMA Sawada’s MNMF MNMF with MNMF w/o with MNMF random partitioning partitioning initialized by initialization function function ILRMA Synth. 15 10 5 0 -5 Directional clustering 補助関数 IVA Ozerov’s Ozerov’s Sawada’s ILRMA Sawada’s ILRMA MNMF MNMF with MNMF w/o with MNMF random partitioning partitioning initialized by initialization function function ILRMA 44

45.

各手法の性能と計算コストの比較例 • SiSECデータベース収録のプロ音楽信号 – ファイル名: bearlin-roads__snip_85_99，14 s（16 kHzサンプル） – 音源: acoustic_guit_main, bass, vocalsの3音源 Good 12 SDR improvement [dB] 10 15.1 s 60.7 s 8 11.5 s 6 7647.3 s 4 IVA 補助関数IVA MNMF ILRMA （潜在変数無） ILRMA （潜在変数有） 2 0 Poor -2 0 100 200 Iteration steps 300 400 45

46.

本日の発表の概要 • ICAに基づく空間分離行列（空間モデル）の推定 – 周波数領域ICA，パーミュテーション問題，独立ベクトル分析 • NMFに基づく音源時間周波数構造（音源モデル）の推定 – NMFによる低ランク近似と生成モデル，多チャネルNMF • 独立低ランク行列分析（ILRMA） – ICA空間モデル＋NMF音源モデル，多チャネルNMFとの関係 • 独立深層学習行列分析（IDLMA） – NMF音源モデル→DNN音源モデル（教師あり拡張） • スペクトログラム無矛盾ILRMA（consistent ILRMA） – 無矛盾性によるパーミュテーション問題緩和，ILRMAへの導入 • まとめ 46

47.

音源分離の歴史と発展（本発表に関連する手法のみ掲載）優決定条件 1994 劣決定条件独立成分分析 (ICA) スペクトル減算時間周波数マスキングその他各種 [Comon]，[Bell and Sejnowski], [Cardoso], [Amari], [Cichocki], … 1998 1999 周波数領域ICA (FDICA) [Morgan], [Sawada], … 2006 ビームフォーミングスパースコーディング時間周波数マスキング到来方向クラスタリングその他各種 [Smaragdis] パーミュテーション問題の解決 [Saruwatari], [Murata], 独立ベクトル分析 (IVA) [偉大なる先人達] [Hiroe], [Kim] 2009 2010 2011 2012 2013 単一チャネル条件 [偉大なる先人達] 非負値行列因子分解 (NMF) [Lee] 数理モデルの拡張生成モデル的解釈の発見 [Virtanen], [Smaragdis], [Kameoka], [Ozerov], … 板倉斎藤擬距離NMF (ISNMF) 空間相関行列モデル補助関数IVA (AuxIVA) [Ono] [Févotte] [Duong] 時変複素ガウスIVA [Ono] 多チャネルNMF [Ozerov, Sawada] 2016 独立低ランク行列分析 (ILRMA) [Kitamura] 2018 多チャネルNMF+DNN [Nugraha] 深層ニューラルネットワーク (DNN) [Hinton], … 独立深層学習行列分析 (IDLMA) [Mogami] 2020 スペクトログラム無矛盾ILRMA [Kitamura] 47

48.

動機 • 不適切な音源モデルを仮定してしまうと分離精度が劣化 – 例：ボーカルや音声は楽器音ほど低ランクではない（ダイナミックにピッチが変動するため） Vocals Drums Guitar • 音源モデルの教師あり学習 – DNNに基づく単一チャネルの音源分離モデル • 音楽や音声など「ソロ音源の学習データ」は利用可能な時代 • 空間モデルは学習可能？ – 部屋の形状，残響時間，マイクロホン位置，音源位置，音速等膨大な物理要因に依存非現実的！ – 独立性に基づくブラインドな推定は有用 48

49.

ILRMAの音源モデルの教師あり化 • 独立低ランク行列分析（ILRMA） NMFによる低ランク近似分離信号周波数毎の分離行列 STFT 分離信号が「互いに独立」かつ「低ランクな時間周波数構造」を持つように分離行列を更新 Frequency Frequency 観測信号 Time Time 音源モデルをDNNで教師あり化 • 独立深層学習行列分析（independent deeply learned matrix analysis: IDLMA） – 統計的独立性と教師ありDNN音源モデルに基づく音源分離周波数毎の分離行列 STFT 分離信号が「互いに独立」かつ「学習済みの DNNで表現されるような時間周波数構造」を持つように分離行列を更新 Time Time Frequency Frequency DNN音源モデルによる分散推定分離信号 Frequency Frequency 観測信号 Time Time 49

50.

DNN音源モデルの学習 • DNNの特徴量混合ベクトル推定ベクトル Frequency 音源1（学習データ）音源1を分離するDNN Time ランダムな振幅値を乗じて混合（） Frequency 最小化損失関数音源2を分離するDNN 音源2（学習データ）正解ベクトル最小化損失関数 Time • DNNの損失関数板倉斎藤擬距離を使うことで複素ガウス分布生成モデルの最尤推定となる正解推定微小値 50

51.

分離行列と分散行列の最適化 • 原点対称複素ガウス分布の負対数尤度空間モデルの更新音源モデルの更新 ILRMAと同様に反復射影法（IP）を適用し分離行列を更新することで最小化可能現在の分離信号を学習済の DNN音源モデルに入力して分散を更新することで最小化可能 51

52.

分離行列と分散行列の最適化 • 原点対称複素ガウス分布の負対数尤度空間モデルの更新音源モデルの更新 ILRMAと同様に反復射影法（IP）を適用し分離行列を更新することで最小化可能現在の分離信号を学習済の DNN音源モデルに入力して分散を更新することで最小化可能 • 反復射影法（iterative projection: IP） [Ono, 2011] – 分離行列を行毎（毎）に更新更新固定固定固定更新固定 … … … 固定固定分散番目の要素が1，他が0の縦ベクトルの更新更新 52

53.

分離行列と分散行列の最適化 • 原点対称複素ガウス分布の負対数尤度空間モデルの更新音源モデルの更新 ILRMAと同様に反復射影法（IP）を適用し分離行列を更新することで最小化可能現在の分離信号を学習済の DNN音源モデルに入力して分散を更新することで最小化可能 • 学習済DNN音源モデルの適用 Time 要素毎のmax演算を施した行列を返すフロア処理 Time 微小フロアリング値 Frequency Frequency Frequency – 分離信号を入力し分散を推定 – IPの数値安定性向上のためフロア処理 Time 53

54.

音楽音源分離実験の条件学習信号 SiSEC2016 DSD100音楽データセット開発データ50曲（Ba., Vo., Dr.の3音源）評価信号 SiSEC2016 DSD100音楽データセットテストデータ25曲のBa./Vo.及びDr./Vo.をRWCPデータベース収録のE2Aインパルス応答で畳み込んで観測した信号サンプリング周波数 8 kHzにダウンサンプリング STFTの設定窓長128, 256, 512, 1024 msのハミング窓シフト長は常に窓長の半分評価指標信号対歪み比（signal-to-distortion ratio: SDR）の改善量 RWCP収録 E2Aインパルス応答 Vo. Ba. or Dr. T60 = 300 ms 2m 40 40 5.66 cm 54

55.

音楽音源分離実験の条件 DNNの構造全結合型フィードフォワード隠れ層4層，各層のユニット数1024 活性化関数 ReLU（隠れ層及び出力層）比較手法 ILRMA（ブラインド），DNN+WF， MNMF+DNN，提案手法（IDLMA） ILRMA：ブラインド多チャネル分離分離行列をIPで推定 DNN+WF：音源モデル教師あり単一チャネル分離， [Uhlich, 2015] 各音源のDNN出力からWienerフィルタを構築・適用 MNMF+DNN：音源モデル教師あり多チャネル分離， [Nagraha, 2016] 音源モデルにDNNを活用，混合系（フルランク空間相関行列）をEMで推定 IDLMA：音源モデル教師あり多チャネル分離 [Makishima, 2018] 音源モデルにDNNを活用分離行列をIPで推定 55 [Kitamura, 2016]

56.

実験結果（1/4）真の分散（Ba.）真の分散（Vo.） DNN推定分散（Ba.） DNN推定分散（Vo.） 56

57.

実験結果（2/4） • 様々な窓長に対する性能比較（25曲の平均） Ba./Vo.の分離結果 14 IDLMA 10 8 MNMF+DNN DNN+WF（単一チャネル） 6 4 ILRMA（ブラインド） 12 SDR improvement [dB] SDR improvement [dB] 12 8 6 MNMF+DNN ILRMA（ブラインド） 4 2 0 0 256 512 1024 Window length in STFT [ms] IDLMA 10 2 128 Dr./Vo.の分離結果 14 DNN+WF（単一チャネル） 128 256 512 1024 Window length in STFT [ms] 57

58.

実験結果（3/4） • 反復回数に対する性能比較（25曲の平均） Ba./Vo.の分離結果（512 ms窓） IDLMA 10 MNMF+DNN 8 DNN+WF 6 ILRMA 4 2 0 14 ILRMA DNN+WF Duong+DNN IDLMA 0 10 20 30 40 50 60 70 80 90 100 Iteration step 12 SDR improvement [dB] SDR improvement [dB] 14 DNNによる性能改善 12 Dr./Vo.の分離結果（256 ms窓） 10 8 6 DNNによる性能改善 IDLMA MNMF+DNN ILRMA ILRMA DNN+WF Duong+DNN IDLMA 4 DNN+WF 2 0 0 10 20 30 40 50 60 70 80 90 100 58 Iteration step

59.

実験結果（4/4） • 100回更新時の計算時間例比較（30秒の観測信号） Computational time [s] – Python 3.5.2＋Chainer 2.1.0環境 – Intel Core i7-6850K（3.60 GHz，6コア） – DNN音源モデルによる分散推定はGeForce GTX 1080Ti 350 287.06 s 300 250 200 150 100 50 23.31 s 26.56 s 0 ILRMA MNMF+DNN IDLMA 59

60.

本日の発表の概要 • ICAに基づく空間分離行列（空間モデル）の推定 – 周波数領域ICA，パーミュテーション問題，独立ベクトル分析 • NMFに基づく音源時間周波数構造（音源モデル）の推定 – NMFによる低ランク近似と生成モデル，多チャネルNMF • 独立低ランク行列分析（ILRMA） – ICA空間モデル＋NMF音源モデル，多チャネルNMFとの関係 • 独立深層学習行列分析（IDLMA） – NMF音源モデル→DNN音源モデル（教師あり拡張） • スペクトログラム無矛盾ILRMA（consistent ILRMA） – 無矛盾性によるパーミュテーション問題緩和，ILRMAへの導入 • まとめ 60

61.

音源分離の歴史と発展（本発表に関連する手法のみ掲載）優決定条件 1994 劣決定条件独立成分分析 (ICA) スペクトル減算時間周波数マスキングその他各種 [Comon]，[Bell and Sejnowski], [Cardoso], [Amari], [Cichocki], … 1998 1999 周波数領域ICA (FDICA) [Morgan], [Sawada], … 2006 ビームフォーミングスパースコーディング時間周波数マスキング到来方向クラスタリングその他各種 [Smaragdis] パーミュテーション問題の解決 [Saruwatari], [Murata], 独立ベクトル分析 (IVA) [偉大なる先人達] [Hiroe], [Kim] 2009 2010 2011 2012 2013 単一チャネル条件 [偉大なる先人達] 非負値行列因子分解 (NMF) [Lee] 数理モデルの拡張生成モデル的解釈の発見 [Virtanen], [Smaragdis], [Kameoka], [Ozerov], … 板倉斎藤擬距離NMF (ISNMF) 空間相関行列モデル補助関数IVA (AuxIVA) [Ono] [Févotte] [Duong] 時変複素ガウスIVA [Ono] 多チャネルNMF [Ozerov, Sawada] 2016 独立低ランク行列分析 (ILRMA) [Kitamura] 2018 多チャネルNMF+DNN [Nugraha] 深層ニューラルネットワーク (DNN) [Hinton], … 独立深層学習行列分析 (IDLMA) [Mogami] 2020 スペクトログラム無矛盾ILRMA [Kitamura] 61

62.

パーミュテーション問題（再掲） • FDICAに基づくBSSにおけるパーミュテーション問題 – 分離行列（は周波数インデクス）が周波数間で非依存周波数毎に分離信号の順番がバラバラになる分離信号1 音源1 観測1 分離行列音源2 Time パーミュテーション分離信号2 の整合観測2 62

63.

動機 • 解決すべき問題 – IVAやILRMAでもパーミュテーション問題解決にしばしば失敗 • 統計モデル（音源モデル）の改良，DNN等の教師あり化，etc. • 新たな手掛かり – スペクトログラム無矛盾性（spectrogram consistency） [Le Roux, 2010], [Le Roux, 2013] • 時間周波数領域の信号の近傍共起関係の一貫性 • Consistent FDICA [Yatabe, 2020] – FDICAでスペクトログラム無矛盾性を考慮するとパーミュテーション問題が緩和 • Consistent IVA [Yatabe, 2020] – IＶAではスペクトログラム無矛盾性による性能向上を確認 • ILRMAにもスペクトログラム無矛盾性を導入 – 反復毎のプロジェクションバックの必要性についても調査 • プロジェクションバック：周波数毎のスケールの補正処理 [Matsuoka, 2001] – 実録音環境における分離性能の改善量を調査 63

64.

スペクトログラム無矛盾性 • 短時間フーリエ変換（STFT）で得られるスペクトログラムには本来一貫した近傍共起関係がある無矛盾（consistent） Frequency Frequency 矛盾（inconsistent） Time Time • 無矛盾なスペクトログラム – 時間と周波数の両方向に滲んでいる（共起している） – STFTの窓関数乗算やオーバーラップシフトが原因 64

65.

スペクトログラム無矛盾性 • 集合によるイメージ時間信号の集合周波数時間時間無矛盾なスペクトログラムの集合スペクトログラム（時間周波数信号）の集合 65

66.

スペクトログラム無矛盾性 • 集合によるイメージ時間信号の集合 ※ STFTの完全再構成条件を仮定 STFT 逆STFT 無矛盾なスペクトログラムの集合スペクトログラム（時間周波数信号）の集合 66

67.

スペクトログラム無矛盾性 • 集合によるイメージ時間信号の集合 ※ STFTの完全再構成条件を仮定矛盾したスペクトログラム（共起関係に一貫性がない） BSS等の何らかの信号処理スペクトログラム（時間周波数信号）の集合 67

68.

スペクトログラム無矛盾性 • 集合によるイメージ時間信号の集合 ※ STFTの完全再構成条件を仮定逆STFT 射影スペクトログラム（時間周波数信号）の集合 68

69.

スペクトログラム無矛盾性 • 集合によるイメージ時間信号の集合矛盾スペクトログラムは「逆STFT→STFT」で無矛盾スペクトログラムに変換できる ※ STFTの完全再構成条件を仮定 STFT 逆STFT 射影スペクトログラム（時間周波数信号）の集合 69

70.

スペクトログラム無矛盾性 • 矛盾したスペクトログラムは逆STFTしてSTFTすることで無矛盾なスペクトログラムに変換可能 – 但しSTFTが完全再構成条件を満たす条件が必要矛盾（inconsistent）無矛盾（consistent） 70

71.

スペクトログラム無矛盾BSS [K. Yatabe, 2020] • IVAやILRMAの分離信号のスペクトログラム無矛盾性を反復最適化で担保 – パーミュテーション問題発生＝とても矛盾したスペクトログラム – 周波数の滲みの強調によりパーミュテーション問題が緩和 71

72.

スペクトログラム無矛盾性の導入 • ILRMAの出力にスペクトログラム無矛盾性を担保 – 周波数毎の分離行列とNMF低ランク音源モデルの交互反復最適化の途中で逆STFT＆STFTを挿入 – 無矛盾性が担保された分離信号をNMFで低ランクモデリング無矛盾性の担保逆STFT& STFT 空間モデル学習更新混合信号分離信号逆STFT& STFT 音源モデル音源モデル学習 NMF NMF 72

73.

反復最適化アルゴリズムの比較従来手法：ILRMA 提案手法：Consistent ILRMA 73

74.

反復最適化アルゴリズムの比較従来手法：ILRMA 提案手法：Consistent ILRMA NMF低ランクモデルの更新分離行列の更新（AuxIVA [Ono, 2011] と同様） 74

75.

反復最適化アルゴリズムの比較従来手法：ILRMA 提案手法：Consistent ILRMA 分離信号を逆STFT→STFTし無矛盾スペクトログラムに変換 NMF低ランクモデルの更新分離行列の更新（AuxIVA [Ono, 2011] と同様）分離信号の大きさを全周波数で統一するスケール補正（プロジェクションバック）[Matsuoka, 2001] 75

76.

優決定条件BSSの難しさ • 独立性最大化基準では分離信号のスケール（音量）は決まらない – 分離行列の乗算で周波数毎にスケールがバラバラになる分離信号1 音源1 観測1 分離行列 Time プロジェクション分離信号2 バック [Matsuoka, 2001] 音源2 観測2 76

77.

反復最適化アルゴリズムの比較従来手法：ILRMA 提案手法：Consistent ILRMA 分離信号を逆STFT→STFTし無矛盾スペクトログラムに変換 NMF低ランクモデルの更新分離行列の更新（AuxIVA [Ono, 2011] と同様）分離信号の大きさを全周波数で統一するスケール補正（プロジェクションバック）[Matsuoka, 2001] 77

78.

実験条件（インパルス応答の畳み込み混合） • 混合条件（2音源2マイク）音源1 音源2 – RWCP E2Aインパルス応答 • 残響時間: 2m = 300 ms • 音源信号（ドライソース） – SiSEC2011の音楽4曲の楽器を組み合わせで10パターン 50 • その他の条件窓関数窓長シフト長基底数初期値反復回数試行回数 50 5.66 cm ハン窓 128, 256, 512, 768, 1024 ms 窓長の1/4 （原稿には他の結果も掲載） 1音源あたり10本単位行列 (0, 1) の一様乱数及び 100回異なる乱数シードで5回 78

79.

実験結果（インパルス応答の畳み込み混合） Good Poor 79

80.

実験条件（実環境録音混合） • 混合条件（2音源2マイク） – SiSEC2011UND liverec信号（音源位置は様々） • 残響時間： = 250 ms • マイク間隔：1m • 音源信号（ドライソース） – 音楽12パターン及び音声（男女）12パターン • その他の条件窓関数窓長シフト長基底数初期値反復回数試行回数ハン窓 512 ms 窓長の1/4 1音源あたり：10本（音楽） or 2本（音声）単位行列 (0, 1) の一様乱数及び 100回異なる乱数シードで5回 80

81.

実験結果（実環境録音混合，音楽信号） Good Poor 81

82.

実験結果（実環境混合，音声信号） Good Poor 82

83.

本日の発表の概要 • ICAに基づく空間分離行列（空間モデル）の推定 – 周波数領域ICA，パーミュテーション問題，独立ベクトル分析 • NMFに基づく音源時間周波数構造（音源モデル）の推定 – NMFによる低ランク近似と生成モデル，多チャネルNMF • 独立低ランク行列分析（ILRMA） – ICA空間モデル＋NMF音源モデル，多チャネルNMFとの関係 • 独立深層学習行列分析（IDLMA） – NMF音源モデル→DNN音源モデル（教師あり拡張） • スペクトログラム無矛盾ILRMA（consistent ILRMA） – 無矛盾性によるパーミュテーション問題緩和，ILRMAへの導入 • まとめ 83

84.

まとめ • 優決定条件BSSの本質 – 音源間独立性で空間的に分離（分離行列推定） – 何らかの音源モデルを導入してパーミュテーション問題を解決 • ILRMA：NMFに基づく低ランク音源モデル – – D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, “Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization,” IEEE/ACM Trans. ASLP, vol. 24, no. 9, pp. 1626–1641, Sep. 2016. D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, “Determined blind source separation with independent low-rank matrix analysis,” Audio Source Separation. Signals and Communication Technology., S. Makino, Ed. Springer, Cham, pp. 125–155, Mar. 2018. • IDLMA：DNNに基づく教師あり音源モデル – – S. Mogami, H. Sumino, D. Kitamura, N. Takamune, S. Takamichi, H. Saruwatari, and N. Ono, “Independent deeply learned matrix analysis for multichannel audio source separation,” Proc. EUSIPCO, pp. 1571–1575, Sep. 2018. N. Makishima, S. Mogami, N. Takamune, D. Kitamura, H. Sumino, S. Takamichi, H. Saruwatari, and N. Ono, “Independent deeply learned matrix analysis for determined audio source separation,” IEEE/ACM Trans. ASLP, vol. 27, no. 10, pp. 1601–1615, Oct. 2019. • Consistent ILRMA：NMF＋スペクトログラム無矛盾性 – D. Kitamura and K. Yatabe, “Consistent independent low-rank matrix analysis for determined blind source separation,” EURASIP J. ASP, vol. 2020, no. 46, p. 35, Nov. 2020. 84

85.

そのほかのILRMA拡張（一部） • 優ガウス分布生成モデルへの拡張 – D. Kitamura, S. Mogami, Y. Mitsui, N. Takamune, H. Saruwatari, N. Ono, Y. Takahashi, and K. Kondo, “Generalized independent low-rank matrix analysis using heavy-tailed distributions for blind source separation,” EURASIP J. ASP, vol. 2018, no. 28, p. 25, May 2018. • 劣ガウス分布生成モデルへの拡張 – S. Mogami, N. Takamune, D. Kitamura, H. Saruwatari, Y. Takahashi, K. Kondo, and N. Ono, “Independent low-rank matrix analysis based on time-variant sub-Gaussian source model for determined blind source separation,” IEEE/ACM Trans. ASLP, vol. 28, pp. 503–518, Dec. 2019. • 時間周波数マスキングに基づくBSS（TFMBSS） – – – K. Yatabe and D. Kitamura, “Time-frequency-masking-based determined BSS with application to sparse IVA,” Proc. ICASSP, pp. 715–719, May 2019. S. Oyabu, D. Kitamura, and K. Yatabe, “Linear multichannel blind source separation based on timefrequency mask obtained by harmonic/percussive sound separation,” Proc. ICASSP, pp. 201–205, Jun. 2021. K. Yatabe and D. Kitamura, “Determined BSS based on time-frequency masking and its application to harmonic vector analysis,” IEEE Trans. ASLP, vol. 29, pp. 1609–1625, Apr. 2021. • ユーザインタラクション付きILRMA – F. Oshima, M. Nakano, and D. Kitamura, “Interactive speech source separation based on independent low-rank matrix analysis,” AST, vol. 42, no. 4, pp. 222–225, Jul. 2021. 85

86.

その他情報 • ILRMAデモンストレーション – http://d-kitamura.net/demo-ILRMA.html – http://d-kitamura.net/demo-ILRMA_en.html • IDLMAデモンストレーション – http://d-kitamura.net/demo-IDLMA.html – http://d-kitamura.net/demo-IDLMA_en.html • TFMBSSデモンストレーション – http://d-kitamura.net/demo-HVA.html – http://d-kitamura.net/demo-HVA_en.html • MATLABのILRMA実装例 – https://github.com/d-kitamura/ILRMA • PythonのILRMA実装例（pyroomacoustics） – https://pyroomacoustics.readthedocs.io/en/pypirelease/pyroomacoustics.bss.ilrma.html#module-pyroomacoustics.bss.ilrma 86

87.

参考文献（アルファベット順）（1/5） • [Comon, 1994]: P. Comon, “Independent component analysis, a new concept?” Signal Process., vol. 36, no. 3, pp. 287–314, 1994. • [Duong, 2010]: N. Q. K. Duong, E. Vincent, and R. Gribonval, “Under-determined reverberant audio source separation using a full-rank spatial covariance model,” IEEE Trans. Audio, Speech, Lang. Process., vol. 18, no. 7, pp. 1830–1840, 2010. • [Févotte, 2009]: C. Févotte, N. Bertin, and J.-L.Durrieu, “Nonnegative matrix factorization with the Itakura-Saito divergence. With application to music analysis,” Neural Comput., vol. 21, no. 3, pp. 793–830, 2009. • [Hiroe, 2006]: A. Hiroe, “Solution of permutation problem in frequency domain ICA using multivariate probability density functions,” Proc. Int. Conf. Independent Compon. Anal. Blind Source Separation, 2006, pp. 601–608. • [James, 1961]: W. James and C. Stein, “Estimation with quadratic loss,” Proc. Berkeley Symposium on Mathematical Statistics and Probability, vol. 1, 1961, pp. 361–379. • [Kim, 2006]: T. Kim, T. Eltoft, and T.-W. Lee, “Independent vector analysis: An extension of ICA to multivariate components,” Proc. Int. Conf. Independent Compon. Anal. Blind Source Separation, 2006, pp. 165–172. • [Kim, 2007]: T. Kim, H. T. Attias, S.-Y. Lee, and T.-W. Lee, “Blind source separation exploiting higher-order frequency dependencies,” IEEE Trans. Audio, Speech, Lang. Process., vol. 15, no. 1, pp. 70–79, 2007. 87

88.

参考文献（アルファベット順）（2/5） • [Kitamura, 2014]: T. Miyauchi, D. Kitamura, H. Saruwatari, and S. Nakamura, “Depth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorization,” Journal of Signal Process., vol. 18, no. 4, pp. 217–220, 2014. • [Kitamura, 2015]: D. Kitamura, H. Saruwatari, H. Kameoka, Y. Takahashi, K. Kondo, and S. Nakamura, “Multichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restoration,” IEEE/ACM Trans. on Audio, Speech, and Lang. Process., vol. 23, no. 4, pp. 654–669, 2015. • [Kitamura, 2016]: D. Kitamura, H. Saruwatari, H. Kameoka, Y. Takahashi, K. Kondo and S. Nakamura, “Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 24, no. 9, pp. 1626–1641, 2016. • [Kulis, 2006]: B. Kulis, M. Sustik, and I. Dhillon, “Learning low-rank kernel matrices,” Proc. Int. Conf. on Machine Learning, 2006, pp. 505–512. • [Le Roux, 2010]: J. L. Roux, H. Kameoka, N. Ono, and S. Sagayama, “Fast signal reconstruction from magnitude STFT spectrogram based on spectrogram consistency,” Proc. DAFx, 2010. • [Le Roux, 2013]: J. Le Roux and E. Vincent, “Consistent Wiener filtering for audio source separation,” IEEE Signal Process. Lett., vol. 20, no. 3, pp. 217–220, 2013. 88

89.

参考文献（アルファベット順）（3/5） • [Lee, 1999]: D. D. Lee and H. S. Seung, “Learning the parts of objects by non-negative matrix factorization,” Nature, vol. 401, pp. 788–791, 1999. • [Lee, 2000]: D. D. Lee and H. S. Seung, “Algorithms for non-negative matrix factorization,” Proc. Adv. Neural Inform. Process. Syst., 2000, vol. 13, pp. 556–562. • [Matsuoka, 2001]: K. Matsuoka and S. Nakashima, “Minimal distortion principle for blind source separation,” Proc. ICA, pp. 722–727, 2001. • [Nugraha, 2016]: A. A. Nugraha, A. Liutkus, and E. Vincent, “Multichannel audio source separation with deep neural networks,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 24, no. 9, pp. 1652–1664, Sep. 2016. • [Ono, 2011]: N. Ono, “Stable and fast update rules for independent vector analysis based on auxiliary function technique,” Proc. IEEE Workshop on Applications of Signal Process. to Audio and Acoust., 2011, pp. 189–192. • [Ono, 2012]: T. Ono, N. Ono, and S. Sagayama, “User-guided independent vector analysis with source activity tuning,” Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2012, pp. 2417–2420. • [Ozerov, 2010]: A. Ozerov and C. Févotte, “Multichannel nonnegative matrix factorization in convolutive mixtures for audio source separation,” IEEE Trans. Audio, Speech, and Lang. Process., vol. 18, no. 3, pp. 550–563, 2010. 89

90.

参考文献（アルファベット順）（4/5） • [Saruwatari, 2000]: S. Kurita, H. Saruwatari, S. Kajita, K. Takeda, and F. Itakura, “Evaluation of blind signal separation method using directivity pattern under reverberant conditions,” Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2000, pp. 3140–3143. • [Saruwatari, 2006]: H. Saruwatari, T. Kawamura, T. Nishikawa, A. Lee, and K. Shikano, “Blind source separation based on a fast-convergence algorithm combining ICA and beamforming,” IEEE Trans. Audio, Speech, Lang. Process., vol. 14, no. 2, pp. 666–678, Mar. 2006. • [Sawada, 2004]: H. Sawada, R. Mukai, S. Araki, and S.Makino, “Convolutive blind source separation for more than two sources in the frequency domain,” Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2004, pp. III-885–III-888. • [Sawada, 2013]: H. Sawada, H.Kameoka, S.Araki, and N. Ueda, “Multichannel extensions of non-negative matrix factorization with complex-valued data,” IEEE Trans. Audio, Speech, Lang. Process., vol. 21, no. 5, pp. 971–982, 2013. • [Smaragdis, 1998]: P. Smaragdis, “Blind separation of convolved mixtures in the frequency domain,” Neurocomputing, vol. 22, pp. 21–34, 1998. • [Smaragdis, 2007]: P. Smaragdis, B. Raj, and M. Shashanka, “Supervised and semisupervised separation of sounds from single-channel mixtures,” Proc. ICA, 2007, pp. 414–421. • [Uhlich, 2015]: S. Uhlich, F. Giron, and Y. Mitsufuji, “Deep neural network based instrument extraction from music,” Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2015, pp. 2135–2139. 90

91.

参考文献（アルファベット順）（5/5） • [Yatabe, 2020]: K. Yatabe, “Consistent ICA: Determined BSS meets spectrogram consistency,” IEEE Signal Process. Lett., vol. 27, pp. 870–874, 2020. 91

独立低ランク行列分析に基づく音源分離とその発展（Audio source separation based on independent low-rank matrix analysis and its extensions）

Daichi Kitamura

関連スライド

音源分離技術の基礎と応用～音源分離ﾁｮｯﾄﾜｶﾙになるための手引き～

音源分離における音響モデリング（Acoustic modeling in audio source separation）

Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法（Jupyter notebookも）

独立低ランク行列分析に基づくブラインド音源分離（Blind source separation based on independent low-rank matrix analysis）

音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sound media signal processing and its applications

独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

各ページのテキスト