非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix factorization and its application to multichannel sound source separation)

1.

慶応義塾大学湯川研究室 2015年11月24日非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 Generative model in nonnegative matrix factorization and its application to multichannel sound source separation Daichi Kitamura Ph.D. Student Department of Informatics School of Multidisciplinary Sciences The Graduate University for Advanced Studies (SOKENDAI)

2.

講演概要 • 自己紹介 • 音源分離と非負値行列因子分解の関わり • 最適化におけるコスト関数と生成モデルとしての解釈 – 良く用いられる距離尺度 – 従来の生成モデル – 複素数を対象とした生成モデル • 板倉斎藤擬距離基準 • コーシー分布に基づく生成モデルとコーシー非負値行列因子分解 • 多チャネルブラインド音源分離への応用 – 従来の多チャネル非負値行列因子分解 – ランク１多チャネル非負値行列因子分解 • まとめ • 参考 2

3.

講演概要 • 自己紹介 • 音源分離と非負値行列因子分解の関わり • 最適化におけるコスト関数と生成モデルとしての解釈 – 良く用いられる距離尺度 – 従来の生成モデル – 複素数を対象とした生成モデル • 板倉斎藤擬距離基準 • コーシー分布に基づく生成モデルとコーシー非負値行列因子分解 • 多チャネルブラインド音源分離への応用 – 従来の多チャネル非負値行列因子分解 – ランク１多チャネル非負値行列因子分解 • まとめ • 参考 3

4.

自己紹介 • 名前: 北村大地（Daichi Kitamura） • 年齢: 25（1990年3月11日生まれ），博士後期課程2年 • 経歴: 香川高等専門学校（旧高松工業高等専門学校）（16 ~ 22）電気情報工学科→専攻科（創造工学専攻）, 学士（工学）奈良先端科学技術大学院大学（22 ~ 24）情報科学研究科, 修士（工学）総合研究大学院大学（24 ~ 27）複合科学研究科（情報学専攻），博士（情報学）取得を目指す • 趣味: 旅行，サバゲー，猫，ギター，・・・ギリシャ，サントリーニ島実家の猫サバゲー 4

5.

自己紹介日本香川うどん！ Kagawa 5

6.

自己紹介 NAIST 日本奈良大仏 Nara 6

7.

自己紹介日本国立情報学研究所 14F 学生室 Tokyo 7

8.

自己紹介 • これまでにやってきた研究 – エレクトリックギターの弦振動解析（香川高専時代，原囿教授） – 教師有り音楽信号分離（NAIST時代，鹿野教授，猿渡准教授） – 多チャネルブラインド音源分離（現在，小野准教授）音源信号混合系観測信号分離信号分離系 • 非負値行列因子分解（nonnegative matrix factorization: NMF） 8

9.

講演概要 • 自己紹介 • 音源分離と非負値行列因子分解の関わり • 最適化におけるコスト関数と生成モデルとしての解釈 – 良く用いられる距離尺度 – 従来の生成モデル – 複素数を対象とした生成モデル • 板倉斎藤擬距離基準 • コーシー分布に基づく生成モデルとコーシー非負値行列因子分解 • 多チャネルブラインド音源分離への応用 – 従来の多チャネル非負値行列因子分解 – ランク１多チャネル非負値行列因子分解 • まとめ • 参考 9

10.

音源分離技術とは？ • 音源分離技術 – 複数の音源が混ざった信号を個々の音源に分離する信号処理 – 音声と雑音の分離，個々の音源の編集，音拡張現実感等特定音源の分離・抽出 • 音源分離の基本的な処理 – 時間-周波数表現されたスペクトログラム上で音源ごとに分解 Frequency 分離最初の音 Time 2つの音が存在 2番目の音 10

11.

音源分離技術の歴史 • 多チャネル音源分離（アレー信号処理） – マイクアレーなど多くのセンサで観測して分離 • ビームフォーミング • 独立成分分析 • 時間周波数マスク等 • 単一チャネル（モノラル信号処理） – 主に音声強調（雑音抑圧）分野で発達 • スペクトル減算 • ポストフィルタ等 – NMFを用いた音源分離手法が登場（2001年頃） • 音源分離が分解された基底のクラスタリング問題に帰着 • 教師有り手法，教師無し手法，共に急速に発達（～現在） • 音源分離においてNMFの登場は非常にショッキングであった（ようです） 11

12.

非負値行列因子分解 [Lee, et al., 1999] • 非負値行列因子分解 (nonnegative matrix factorization: NMF) Amplitude Frequency Frequency – 非負制約条件付き次元圧縮，有意な特徴量抽出法 – 非負制約によって暗にスパースな解が得られる傾向 Amplitude Time 観測行列 (スペクトログラム) Time 基底ベクトルアクティベーション行列 (時間的なゲイン変化) 基底行列 (頻出スペクトルパターン) Ω: 周波数ビン数 𝑇: 時間フレーム数 𝐾: 基底ベクトル数 12

13.

なぜ非負値制約を与えたのか？ • 観測データの非負性 – 世の中の多くの物事は非負値で表現するのが自然 • パワースペクトログラム，文書中の各単語の出現回数，画像データ etc. • 基底行列の非負性 – 非負データの構成要素は非負であるべき • 負のスペクトル，負の出現回数，負の画素値は我々には解釈できない • アクティベーション行列の非負性 – 構成要素の混ざり方は足し算のみ→観測データは加算系によって生じる • 「非負制約を与えた低ランク近似」は暗に「スパースな分解」をする – スパースな解は有意な情報を表現する (可能性が高い) 13

14.

分解される基底行列の幾何学的解釈次元数 • NMFで分解された基底ベクトルとは？データ数基底数 • 3次元空間の3点を2本の基底ベクトルで張られる凸錘の部分空間で表現 [D. Donoho, et al., 2003] 凸錘: 凸集合の錘部分空間 (凸錘, convex cone) 部分空間 (凸錘, convex cone) データ点データ点と凸錘の距離の和が最小となる基底を推定 14

15.

講演概要 • 自己紹介 • 音源分離と非負値行列因子分解の関わり • 最適化におけるコスト関数と生成モデルとしての解釈 – 良く用いられる距離尺度 – 従来の生成モデル – 複素数を対象とした生成モデル • 板倉斎藤擬距離基準 • コーシー分布に基づく生成モデルとコーシー非負値行列因子分解 • 多チャネルブラインド音源分離への応用 – 従来の多チャネル非負値行列因子分解 – ランク１多チャネル非負値行列因子分解 • まとめ • 参考 15

16.

NMFの最適化手法 • 目的関数を定義して最小化するとを求める不等式制約条件付き最適化問題 • 解法はいろいろあるが，有名な手法として効率的な反復型最適化式がある [Lee, et al., 2001] • 解析的な形では求まらない（不良設定の逆問題の為） 16

17.

NMFのコスト関数に用いる距離尺度 • 様々なコスト関数が提案されている – 二乗ユークリッド距離 – 一般化カルバック・ライブラ（KL）ダイバージェンス – 板倉斎藤（IS）擬距離但し，全要素の距離値の総和をコスト関数とするのが一般的 • NMF分解においてどのような特質を重視するかを左右 – 例: スペクトルのピークの一致度を重要視した分解（KL，IS） – 例: 距離値がスケールに対して不変な分解（IS） • より一般的な距離関数のβ-divergenceというものもある – β=0がIS，β=1がKL，β=2がEUCに対応する 17

18.

各距離規範の様子 • データに対するの変化 – 変数がデータに不足する事に大きなペナルティを課す • スペクトルのピークを精密にフィットさせようとする 18

19.

NMFの生成モデル的解釈（EUC） • 距離関数を定めることの統計的な解釈が存在 – 距離関数の選択: 観測データの生成モデルを定めている – 二乗ユークリッド距離（β=2）基準下記の最尤推定と等価な問題正規分布観測データは時間周波数毎に平均値の異なるガウス分布から生成されている期待値 19

20.

NMFの生成モデル的解釈（KL） • 距離関数を定めることの統計的な解釈が存在 – 距離関数の選択: 観測データの生成モデルを定めている – 一般化KLダイバージェンス（β=1）基準 [A. T. Cemgil, 2009] 下記の最尤推定と等価な問題ポアソン分布観測データは時間周波数毎に最頻値の異なるポアソン分布から生成されているポアソン分布の 20 期待値

21.

NMFの生成モデル的解釈（IS） • 距離関数を定めることの統計的な解釈が存在 – 距離関数の選択: 観測データの生成モデルを定めている – 板倉斎藤擬距離（β=0）基準下記の最尤推定と等価な問題指数分布の期待値観測データは時間周波数毎に母数の異なる指数分布から生成されている指数分布 21

22.

NMFの生成モデル的解釈（とりあえずまとめ） • データと変数のフィッティングを，どの確率分布をもって計っていくかを制御している – その上で期待値（変数）を求める最尤推定問題を解いている • これらの統計的解釈は全てBregmanダイバージェンス基準NMF [I. S. Dhillon, et al., 2005] からも導かれる – 詳細は割愛！（「指数分布族」という概念で一般化した距離規範） • 板倉斎藤擬距離基準NMFに関しては複素数の観測データに対する別の生成モデル的な解釈が存在する – 複素観測データが複素平面で球対称なガウス分布（複素ガウス分布）から生成 – 観測データが複数（基底数）個の独立な複素ガウス分布に従う確率変数の線形結合であることを仮定（ガウス分布の再生性） – IS-NMFによる基底分解の（期待値の意味での）妥当性を保証 22

23.

板倉斎藤擬距離基準NMF [C. Févotte, et al., 2009] • 従来のNMF分解の問題点 – データ行列（非負実数）は1本の基底と1本のアクティベーションからなるランク1行列の線形結合として表現 – は振幅スペクトログラムなのか？あるいはパワーなのか？ – いずれにしても線形結合（加法性）は成り立たない • 理論的には複素スペクトログラムの加法モデルが正しい – 位相スペクトログラムはどうするのか？ • 板倉斎藤擬距離基準NMFでは下記のように解決される – 複素スペクトログラムに対する生成モデルを与えられる – 複素生成モデルの線形結合なので理論的に正しいモデル – 位相は無情報な形（一様分布）で保持される 23

24.

板倉斎藤擬距離基準NMF [C. Févotte, et al., 2009] • を複素スペクトログラムとする（STFTしたそのもの） – 各時間周波数要素は複素要素とある時間周波数要素を平均0，分散個足し合わせたものの球対称複素ガウスこれらの複素ガウス分布は互いに独立 – 複素ガウス分布の線形結合なのでも複素ガウス分布 • ガウス分布の再生性 • の複素ガウス分布の分散は – 分散が時間周波数で変動する複素ガウス分布が生成モデル 24

25.

板倉斎藤擬距離基準NMF [C. Févotte, et al., 2009] • パワースペクトログラムは複素ガウスの分散に対応パワーが小＝分散が小殆ど0付近の複素数しか生成しない Frequency bin : パワースペクトログラム但し濃淡が濃い方が大きなパワーを示す Time frame パワーが大＝分散が大大きな振幅の複素数も生成しうる各時間周波数で分散が変動する複素ガウス分布巨視的（マクロ）に考えると分散が逐一変動する為，スペクトログラム全体の密度分布はスーパーガウシアン（カートシスがガウス分布より大）な分布になっている 25

26.

板倉斎藤擬距離基準NMF [C. Févotte, et al., 2009] • この生成モデルにおける及び板倉斎藤擬距離基準NMF 等価な問題の推定但し，定数項は省いている • パワースペクトログラムに対するISNMFは前述の生成モデルを仮定しており，理論的に極めて妥当なモデル – NMF分解後にパワードメインでのウィーナフィルタ（理論的に妥当）番目の音源は要素毎の積 26

27.

とはいえ • では，パワードメインのISNMFがスペクトログラムの分解や音源分離にとって最良な結果を与えるのか？ – 否！ – 例えば音源分離タスクにおいては「振幅ドメインのKLNMFが良い」といろいろな文献で報告されている • Ex. [D. FitzGerald, et al., 2009], [D. Kitamura, et al., 2014] – 場当たり的に振幅ドメインでISNMFを適用することもしばしば – 理論的妥当性とはなんだったのか・・・ • 他になんかないの（例えば振幅ドメインで理論的に妥当なNMFとか） – 先月（2015年10月）のWASPAA2015で登場 – Cauchy NMF [A. Liutkus, et al., 2015] • コーシー分布の再生性を用いて振幅ドメインでの加法性が（期待値の意味で）理論的に保証されたNMF • ウィーナフィルタも振幅ドメインで適用するのが正しい 27

28.

Cauchy NMF [A. Liutkus, et al., 2015] • 元々の動機はウィーナフィルタの一般化 – – 乗ドメインでのウィーナフィルタの構築 [A. Liutkus, et al., 2015] （振幅ドメイン）で加法性の成り立つの生成モデルとは？ • コーシー分布生成モデルの発見 • コーシーNMFの生成モデルとある時間周波数要素中心値0，スケールの球対称コーシーこれを複素平面で球対称に回した複素分布これらの複素コーシー分布は互いに独立 – 複素コーシー分布の線形結合なのでも複素コーシー分布 • コーシー分布の再生性 • の複素コーシー分布のスケールは – スケールが時間周波数で変動する複素コーシー分布 28

29.

Cauchy NMF [A. Liutkus, et al., 2015] • この生成モデルにおける及び見たこと無いコスト関数に・・・の推定球対称コーシー分布等価な問題但し，定数項は省いている • 振幅ドメインの加法性の妥当性を理論的に保証した分解モデル – NMF分解後に振幅ドメインでのウィーナフィルタ（理論的に妥当）番目の音源は要素毎の積 29

30.

Cauchy NMF [A. Liutkus, et al., 2015] • 音源分離タスクにおいてパワードメインのISNMFよりは良い性能をマーク – しかし依然として振幅ドメインのKLには及ばず • その他，コーシー分布の特徴（heavy-tail）を生かした denoisingなどに応用可能（だそうです） 30

31.

NMFの生成モデル的解釈まとめ • 従来の生成モデルによるNMFの解釈は成分ね合わせに関しては何も説明していない – 線形結合された変数いるという事実に過ぎないの重が最尤推定のパラメータになって • 一方で「複素数成分が生成されるとするISNMFやコーシーNMFの解釈」は極めて重要 – 複素成分の重ね合わせを「確率モデルの再生性」によって表現 • NMFによるスペクトログラム分解の正当性が初めて保証される – パワースペクトログラムは複素生成モデルの分散（コーシー分布ではスケール）に対応 • 大パワーの時間周波数スロットは振幅の大きな複素数値を生成しがち – 位相スペクトログラムは無情報（観測位相が最尤推定結果） • 工学的な実用性はまだ無い（性能が良くない）が今後さらなる理論的な解釈の発展に繋がる 31

32.

講演概要 • 自己紹介 • 音源分離と非負値行列因子分解の関わり • 最適化におけるコスト関数と生成モデルとしての解釈 – 良く用いられる距離尺度 – 従来の生成モデル – 複素数を対象とした生成モデル • 板倉斎藤擬距離基準 • コーシー分布に基づく生成モデルとコーシー非負値行列因子分解 • 多チャネルブラインド音源分離への応用 – 従来の多チャネル非負値行列因子分解 – ランク１多チャネル非負値行列因子分解 • まとめ • 参考 32

33.

優決定条件ブラインド音源分離 • ブラインド音源分離（blind source separation: BSS） – 混合系が未知の条件で分離系を推定混合系分離系 BSS – マイク位置，マイク間隔，音源位置等の情報が不要 • 優決定条件BSS – 統計的独立性に基づく手法が代表的 • 独立成分分析（ICA）[Comon, 1994] • 独立ベクトル分析（IVA）[Hiroe, 2006], [Kim, 2006] State-of-the-art • BSSに利用可能な性質 – 音源毎の空間的な違い（音源のある位置の違い） – 音源毎の音色の違い（音源固有のスペクトルパターンの違い） 33

34.

従来の空間情報を用いた音源分離 • 独立ベクトル分析（IVA） [Hiroe, 2006], [Kim, 2006] – 音源毎の空間的な違いを用いた線形の空間分離フィルタ音源1 混合系音源1の空間分離フィルタ音源1 音源2 • 周波数方向に一様な高次相関を考慮しているのみ • 音声の混合信号ではある程度分離可能 Frequency – 音源間の統計的独立性仮定に基づいて分離フィルタを推定濃淡は強度値 – 高速かつ頑健な分離が可能 – 音源毎の音色の違いは用いていない Time • 音源毎の空間的な違いの他に，音色の違いも音源分離に活用されるべき – 音源の音色構造を捉える非負値行列因子分解（NMF）の活用 34

35.

空間的な違いと音色の違いを用いた音源分離 • 多チャネルNMF [Ozerov, 2010], [Sawada, 2013] 多チャネルベクトル時間周波数毎の観測チャネル間相関音源周波数毎のチャネル間相関瞬時チャネル間相関行列クラスタリング関数基底行列アクティベーション行列強度変化スペクトルパターン多チャンネル観測データ空間モデル音源モデル 35/21

36.

空間的な違いと音色の違いを用いた音源分離 • 多チャネルNMF [Ozerov, 2010], [Sawada, 2013] – NMFの多チャネル拡張した音源分離手法 – 音色構造を音源毎の空間的な違いに基づいてクラスタリング時間周波数毎の観測チャネル間相関音源周波数毎のクラスタリング関数基底行列アクティベーション行列チャネル間相関強度変化スペクトルパターン空間モデル混合された多チャン音源毎の空間的な違いネル観測信号音源モデル全ての音源の音色構造 – コスト関数は板倉斎藤擬距離の多チャネル版（log-det div.） – 極めて高い計算コストと極端な初期値依存性が大問題 36

37.

ランク1多チャネルNMF • 空間的な違いと音色構造を同時に用いた高速かつ頑健な分離手法 – NMFによる音色構造表現を導入した独立性に基づく分離手法 • 空間モデルの推定は従来通り独立性基準（高速性，頑健性） • 音源モデルの推定にはNMFによる分解表現を導入（高品質，高精度） – 多チャネルNMFにおける空間モデルの自由度の制限空間モデル限定的柔軟 • フルランクで推定される音源毎のチャンネル間相関に制約を導入 • 多チャネルNMFにおける計算コスト及び頑健性の問題を解消多チャネル NMF 空間モデルの自由度を制限 IVA 提案手法 NMFの音源モデルを導入限定的音源モデル柔軟ランク1空間モデルを導入音源毎のチャネル間相関行列のランクが全周波数において1になる制約ランク1多チャネルNMF 37

38.

ランク1空間モデルとは？ • 音源毎のチャネル間相関行列のランクが1 – 音源の伝達系が1本の時不変なステアリングベクトルで表現音源マイクアレイステアリング観測ベクトル信号観測ベクトル 2x2のランク1行列の相関行列は – 複数の音源が存在する場合も音源毎の相関行列のランクは1 音源マイクアレイステアリングステアリングベクトル観測ベクトル信号混合行列音源1のみの録音信号の相関行列は音源2のみの録音信号の相関行列は 38

39.

ランク1空間モデルとは？ • 音源毎のチャネル間相関行列のランクが1 – 時間周波数領域において1つの音源の伝達系が1本の時不変なステアリングベクトルで表現可能 : 周波数インデクス : 時間インデクス音源マイクアレイ観測信号ステアリングベクトルステアリングベクトル – 時間周波数領域における時不変複素瞬時混合モデル時不変混合行列 – 音源やマイクの位置が変わらず，残響がフーリエ変換の窓長より短い 39

40.

提案手法の定式化 • 多チャネルNMFの目的関数にランク1モデルを導入 1. ランク1チャネル間相関を導入（ 2. 混合行列を用いて表現しなおす 3. 分離行列と分離信号 NMFのコスト関数（音源モデルの推定に寄与））に変数変換 IVAのコスト関数（空間モデルの推定に寄与） NMFとIVAの最適化更新式を交互に反復することで全変数を容易に最適化可能 40

41.

提案手法のアルゴリズム • 音源毎の空間的な違い（空間モデル）と各音源の音色構造（音源モデル）を交互に学習音色構造の学習空間的な違いの学習音源モデル NMF IVA NMF 混合信号分離信号音源毎の音色構造を明確に捉えることで独立性基準での分離性能の向上が期待できる 41

42.

音楽信号の音源分離実験 • 実験条件音源信号比較手法窓長（FFT長）シフト長基底数主観評価値 SiSECのプロ音楽信号に，RWCP収録のマイクアレーインパルス応答で畳み込んで作成，2チャネルで2音源の混合信号 IVA, 多チャネルNMF，ランク1多チャネルNMF（提案手法） 512 ms，ハニング窓 128 ms (1/4シフト) 1音源につき30本 SDR改善値（音質と分離度合いを含む総合的な分離性能） E2Aインパルス応答（残響時間: 300 ms）音源1 音源2 2m 50 50 5.66 cm 42

43.

音楽信号の音源分離実験 – 反復回数毎の性能の変化を示したグラフ – IVAと同程度の高速な収束を実現高速，頑健，高品質，高精度な分離を達成 SDR improvement [dB] – 初期値を変えて10回試行した際の平均と標準偏差を示したグラフ – 頑健かつ高性能な音源分離を達成 SDR improvement [dB] • 実験結果（曲名: ultimate nz tour, guitar and synth.）信号長: 19.7 s (16kHzサンプル) 20 18 16 14 12 10 8 6 4 2 0 14 12 10 8 6 4 2 0 Source 1 Source 2 Multichannel NMF IVA Proposed method 11.8 s（30回時点） 7.8 s（30回時点） 598.5 s（250回時点） IVA Multichannel NMF Proposed method 0 100 200 Iteration steps 300 400 43

44.

講演概要 • 自己紹介 • 音源分離と非負値行列因子分解の関わり • 最適化におけるコスト関数と生成モデルとしての解釈 – 良く用いられる距離尺度 – 従来の生成モデル – 複素数を対象とした生成モデル • 板倉斎藤擬距離基準 • コーシー分布に基づく生成モデルとコーシー非負値行列因子分解 • 多チャネルブラインド音源分離への応用 – 従来の多チャネル非負値行列因子分解 – ランク１多チャネル非負値行列因子分解 • まとめ • 参考 44

45.

まとめ • 音源分離でよく用いられる非負値行列因子分解の紹介 • NMFによる分解の生成モデル解釈 – 距離基準に対応した生成モデルに対する最尤推定問題と等価 – 但し，複素数値や成分の線形結合を取り扱うわけではない • 振幅スペクトルやパワースペクトルの加法性が理論的に妥当なNMF – 複素数（位相に関しては無情報）の生成モデルを導入 – パワースペクトログラムを用いたISNMF – 振幅スペクトログラムを用いたコーシーNMF • ISNMFを用いた多チャネルNMFの紹介とその発展手法 – ランク1多チャネルNMF（ブラインド音源分離） 45

46.

参考（1/3） • NMF – – D. D. Lee, H. S. Seung, “Learning the parts of objects by nonnegative matrix factorization,” Nature, vol.401, pp.788–791, 1999. D. D. Lee, H. S. Seung, “Algorithms for non-negative matrix factorization,” Proc. Advances in Neural Information Processing Systems, vol.13, pp.556–562, 2001. • NMFの幾何学的解釈 – D. Donoho, V. Stodden, “When does non-negative matrix factorization give correct decomposition into parts?,” MIT Press, 2003. • β-divergence NMF – – S. Eguchi, K. Yano, “Robustifying maximum likelihood estimation,” Technical Report of Institute of Statistical Mathematics, 2001. M. Nakano, H. Kameoka, J. Le Roux, Y. Kitano, N. Ono, S. Sagayama, “Convergence-guaranteed multiplicative algorithms for non-negative matrix factorization with beta-divergence,” Proc. International Workshop on Machine Learning for Signal Processing, pp.283-288, 2010. • KLNMFとベイジアンNMF – A. T. Cemgil, “Bayesian inference for nonnegative matrix factorization models,” Comput. Intell. Neurosci., vol.2009, pp.1–17, 2009. • Bregman-divergence-based NMF – I. S. Dhillon, S. Sara, “Generalized nonnegative matrix approximations with Bregman divergences,” 46 Proc. NIPS 2005, pp. 283-290, 2005.

47.

参考（2/3） • ISNMF（複素生成モデル） – C. Févotte, N. Bertin, J.-L. Durrieu, “Nonnegative matrixfactorization with the Itakura-Saito divergence. With applicationto music analysis,” Neural Computation, vol.21, no.3, 2009. • 振幅ドメインのKLNMFが良いと実験的に主張する文献 – – D. Fitzgerald, M. Cranitch, E. Coyle, “On the use of the beta divergence for musical source separation,” Proc. Irish Signals Syst. Conf., 2009. D. Kitamura, H. Saruwatari, K. Yagi, K. Shikano, Y. Takahashi, K. Kondo, “Music signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penalties,” IEICE Trans. Fundam. Electron., Commun. Comput. Sci., vol.E97-A, no.5, pp.1113–1118, 2014. • 一般化ウィーナフィルタとCauchy NMF – – A. Liutkus, R. Badeau, “Generalized Wiener filtering with fractional power spectrograms,” Proc. ICASSP, pp.266–270, 2015. A. Liutkus, D. Fitzgerald, “Cauchy nonnegative matrix factorization,” Proc. WASPAA, 2015. • 独立成分分析（ICA） – P. Comon, “Independent component analysis, a new concept?,” Signal Processing, vol.36, no.3, pp.287–314, 1994. 47

48.

参考（3/3） • 独立ベクトル分析（IVA） – – – T. Kim, T. Eltoft T.-W. Lee, “Independent vector analysis: an extension of ICA to multivariate components,” Proc. International Conference on Independent Component Analysis and Blind Source Separation, pp.165–172, 2006. A. Hiroe, “Solution of permutation problem in frequency domain ICA using multivariate probability density functions,” Proc. International Conference on Independent Component Analysis and Blind Source Separation, pp.601–608, 2006. T. Kim, H. T. Attias, S.-Y. Lee T.-W. Lee, “Blind source separation exploiting higher-order frequency dependencies,” IEEE Trans. ASLP, vol.15, no.1, pp.70–79, 2007. • 多チャネルNMF – – A. Ozerov, C. Févotte, “Multichannel nonnegative matrix factorization in convolutive mixtures for audio source separation,” IEEE Trans. ASLP, vol.18, no.3, pp.550–563, 2010. H. Sawada, H. Kameoka, S. Araki, N. Ueda, “Multichannel extensions of non-negative matrix factorization with complex-valued data,” IEEE Trans. ASLP, vol.21, no.5, pp.971–982, 2013. • ランク1多チャネルNMF – D. Kitamura, N. Ono, H. Sawada, H. Kameoka, H. Saruwatari, “Efficient multichannel nonnegative matrix factorization exploiting rank-1 spatial model,” Proc. ICASSP, pp.276–280, 2015. • HP: http://d-kitamura.sakura.ne.jp/index.html – β-divergence NMFやCauchy NMFのコード，音源分離デモ等を公開しています 48

http://d-kitamura.sakura.ne.jp/index.html

非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix factorization and its application to multichannel sound source separation)

Daichi Kitamura

関連スライド

音源分離技術の基礎と応用～音源分離ﾁｮｯﾄﾜｶﾙになるための手引き～

音源分離における音響モデリング（Acoustic modeling in audio source separation）

Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法（Jupyter notebookも）

独立低ランク行列分析に基づく音源分離とその発展（Audio source separation based on independent low-rank matrix analysis and its extensions）

独立低ランク行列分析に基づくブラインド音源分離（Blind source separation based on independent low-rank matrix analysis）

音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sound media signal processing and its applications

各ページのテキスト