11.9K Views
March 19, 18
スライド概要
北村大地, 小野順貴, 澤田宏, 亀岡弘和, 猿渡洋, "独立低ランク行列分析に基づくブラインド音源分離," IEICE Technical Report, EA2017-56, vol. 117, no. 255, pp. 73–80, Toyama, October 2017 (招待講演).
Daichi Kitamura, Nobutaka Ono, Hiroshi Sawada, Hirokazu Kameoka, and Hiroshi Saruwatari, "Blind source separation based on independent low-rank matrix analysis," IEICE Technical Report, EA2017-56, vol. 117, no. 255, pp. 73–80, Toyama, October 2017 (in Japanese, Invited talk).
http://d-kitamura.net/links_en.html
応用音響研究会(EA) 2017年10月22日(日)09:00–10:00 [招待講演] 独立低ランク行列分析に基づくブラインド音源分離 Blind Source Separation Based on Independent Low-Rank Matrix Analysis 東京大学大学院情報理工学系研究科 首都大学東京システムデザイン研究科 NTTコミュニケーション科学基礎研究所 NTTコミュニケーション科学基礎研究所 東京大学大学院情報理工学系研究科 北村大地 小野順貴 澤田宏 亀岡弘和 猿渡洋
発表の概要 • 研究の背景 – 音源分離問題の工学的意義と技術的俯瞰 • ブラインド音源分離と独立成分分析 – 前提条件,問題解決に利用可能な手掛かり – 周波数領域への適用,耐残響性の向上 • 音楽信号の効率的なモデリング – 非負値行列因子分解による低ランク近似 – 板倉斎藤擬距離に基づく最尤推定 独立成分分析 に由来する信号源分離 法の発展 (1994年~2012年) 非負値行列因子分解 に由来する非負行列モ デリング法の発展 (1999年~2013年) • 独立低ランク行列分析によるブラインド音源分離 – 独立低ランク行列分析 – 多チャネル非負値行列因子分解との関連性 • まとめとさらなる発展 – より高精度なブラインド音源分離を目指して 2
発表の概要 • 研究の背景 – 音源分離問題の工学的意義と技術的俯瞰 • ブラインド音源分離と独立成分分析 – 前提条件,問題解決に利用可能な手掛かり – 周波数領域への適用,耐残響性の向上 • 音楽信号の効率的なモデリング – 非負値行列因子分解による低ランク近似 – 板倉斎藤擬距離に基づく最尤推定 独立成分分析 に由来する信号源分離 法の発展 (1994年~2012年) 非負値行列因子分解 に由来する非負行列モ デリング法の発展 (1999年~2013年) • 独立低ランク行列分析によるブラインド音源分離 – 独立低ランク行列分析 – 多チャネル非負値行列因子分解との関連性 • まとめとさらなる発展 – より高精度なブラインド音源分離を目指して 3
音源分離の工学的・社会的な重要性 • 音源分離(audio source separation) – 音響信号を対象とした信号処理技術の一つ • 信号処理:観測信号から有益な意味や情報を引き出し活用する技術 観測信号 ただの雑音… 雑音の中に人の声がある! • 知能情報学・機械学習の一大トピック – 人の声,雑音,歌声,楽器音,機械音等の音源を「分離」 – 人間の持つカクテルパーティ効果を機械で実現:機械の耳 • カクテルパーティ効果: うるさい場所でも特定の人物の 声に注意を向けて聞き取ること ができる人間の能力 4
音源分離の応用の一例 • 補聴器デバイス – 雑音環境での聞きやすさを改善,健常者も対象 • 眼鏡と同じくらい補聴器は一般に普及するか • 音声認識 – 耐雑音性向上,会議等の複数話者同時認識 • 自動採譜 – 楽器毎の楽譜を 音楽CDから直接作成 分離 音楽CD • ライブ音楽演奏の再編集 – 音楽演奏は一期一会,その場で音源が混合 – 音楽・芸術文化の興隆 – 芸術性を損なわない超高品音源分離 • 70人のオーケストラ演奏から「この人のヴァイオリン」が分離できるか 5
音源分離の技術的俯瞰:観測条件 • 観測信号のマイク数(チャネル数)による条件の違い 難 – 単一チャネル信号(モノラル信号) 1ch • 音源分離には最も困難な録音条件 – 応用範囲は最も広い モノラル録音 • 音色に関する情報しか得られない – 劣決定条件(音源数 モノラル信号(1-ch) マイク数) • 2チャネル(ステレオ)等,混合されて いる音源の方がチャネルよりも多い • 単一チャネルでは得られなかった空間 的な情報が得られる L-ch R-ch 音楽CD ステレオ信号(2-ch) – 各マイクで観測した信号間の振幅差と位相差 – 優決定条件(音源数 1ch • 十分な数のマイクがある 2ch – 録音装置は大規模化,煩雑化 • 得られる空間的な情報の量も多い … … 易 マイク数) Mch マイクアレイ – 空間情報を使う音源分離は比較的高性能 多チャネル信号 6
音源分離の技術的俯瞰:前提条件 • 事前に用意できる外部からのヒント(教師情報)の有無 難 – 何もヒントがない「ブラインド音源分離」 • 複数の音源が既に混合された観測信号のみ利用可能 • 音源に関する何らかの「性質・仮定」を用いる必要あり – 推測される音声の特徴や楽器音の特徴等 易 – 使えるヒントがある「教師あり音源分離」 • 音源分離問題を解くヒントがあれば分離性能は向上 • 利用可能な教師は様々 – 分離したい音源の音色サンプル(少量) 音階のサンプル » 音色をそのままパーツとして用いる – 分離したい音源の音色サンプル(大量) » 近年発展している深層学習(AI)を適用 – マイク位置や音源位置等,録音時の空間的な情報 – その他,楽譜,ユーザからの指示,カメラからの情報等 • 本講演では「優決定条件ブラインド音源分離」を対象とし, 最先端の音源分離アルゴリズムを紹介 7
音源分離の歴史と発展(一部) • 基礎理論とその拡張手法 1994 独立成分分析(ICA) 1998 周波数領域ICA(FDICA) 年代 1999 2006 パーミュテーション問題 解決法の検討 独立ベクトル分析(IVA) 2011 補助関数IVA(AuxIVA) 2012 時変複素ガウスIVA 2016 非負値行列因子分解(NMF) NMFの様々な問題への適用 生成モデル的解釈の発見 各種拡張手法 板倉斎藤擬距離NMF(ISNMF) 2009 2013 代表的なもののみ記述 多チャネルNMF 独立低ランク行列分析(ILRMA) 8
発表の概要 • 研究の背景 – 音源分離問題の工学的意義と技術的俯瞰 • ブラインド音源分離と独立成分分析 – 前提条件,問題解決に利用可能な手掛かり – 周波数領域への適用,耐残響性の向上 • 音楽信号の効率的なモデリング – 非負値行列因子分解による低ランク近似 – 板倉斎藤擬距離に基づく最尤推定 独立成分分析 に由来する信号源分離 法の発展 (1994年~2012年) 非負値行列因子分解 に由来する非負行列モ デリング法の発展 (1999年~2013年) • 独立低ランク行列分析によるブラインド音源分離 – 独立低ランク行列分析 – 多チャネル非負値行列因子分解との関連性 • まとめとさらなる発展 – より高精度なブラインド音源分離を目指して 9
音源分離の歴史と発展(一部) • 基礎理論とその拡張手法 1994 独立成分分析(ICA) 1998 周波数領域ICA(FDICA) 年代 1999 2006 パーミュテーション問題 解決法の検討 独立ベクトル分析(IVA) 2011 補助関数IVA(AuxIVA) 2012 時変複素ガウスIVA 2016 非負値行列因子分解(NMF) NMFの様々な問題への適用 生成モデル的解釈の発見 各種拡張手法 板倉斎藤擬距離NMF(ISNMF) 2009 2013 代表的なもののみ記述 多チャネルNMF 独立低ランク行列分析(ILRMA) 10
ブラインド音源分離と独立成分分析 • ブラインド音源分離(blind source separation: BSS) – 混合系 が未知の条件で分離系 を推定 混合系 分離系 BSS – マイクの位置や間隔,音源の位置等の情報が不要 • 優決定条件(マイク数≧音源数)のBSS – 統計的独立性に基づく手法が代表的 • 独立成分分析(ICA)[Comon, 1994] • 周波数領域ICA(FDICA)[Smaragdis, 1998], [Saruwatari, 2000], [Sawada, 2004], ・・・ • 独立ベクトル分析(IVA)[Hiroe, 2006], [Kim, 2006], [Kim, 2007], [Ono, 2011], [Ono, 2012], ・・・ • 電波,脳等の生体信号,地震波形等の分野で発展 • ICA理論の確立後は音響信号処理分野が世界的に牽引 11
ICAの分離原理:音源の分布とは? Amplitude • 音声波形の分布 ガウス分布(正規分布) 0.5 Time samples 0.4 0.3 0.2 0.1 Amount of components 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 0付近で急峻であり,裾が広 い分布 ガウス分布(正規分布)とは 全然違う,非ガウス分布 Amplitude 13
ICAの分離原理:音源の分布とは? Amplitude • ピアノ音波形の分布 ラプラス分布 Time samples 0.6 0.5 0.4 0.3 0.2 0.1 0 Amount of components -5 -4 -3 -2 -1 0 1 2 3 4 5 やはりガウス分布より尖っ ていて裾が広い Amplitude 13
ICAの分離原理:音源の分布とは? Amplitude • ドラム音の分布 コーシー分布 1 0.8 Time samples 0.6 0.4 0.2 0 Amount of components -5 -4 -3 -2 -1 0 1 2 3 4 5 やはりガウス分布より尖っ ていて裾が広い Amplitude 13
ICAの分離原理:中心極限定理の検証 • 音源の分布(生成モデル)は多くの場合非ガウスな分布 – しかし混合音しか観測できないので各音源の分布は不明 • 中心極限定理(central limit theorem) – 「いかなる分布から生成される確率変数も足していくとガウス分 布に従う確率変数に近づいてゆく」※ ※ただし中心極限定理を満たさない確率分布もある (安定分布族と呼ばれ,「一般化中心極限定理」が成り立つ) ラプラス分布 一様分布 0.6 0.5 0.4 0.3 0.2 0.1 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 正規分布 0.01 0.5 0.008 0.4 0.006 0.3 0.004 0.2 0.002 0.1 0 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5 Generate r.v.s • 信じられない? 15
ICAの分離原理:中心極限定理の検証 • と を独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 – では Amount Amount • それぞれのサイコロを100万回降った結果 という値はどのような分布に従うか? 16
ICAの分離原理:中心極限定理の検証 • と を独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 Amount • それぞれのサイコロを100万回降った結果 – では もはや一様分布ではない はどうか? 17
ICAの分離原理:中心極限定理の検証 • と を独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 Amount Amount • それぞれのサイコロを100万回降った結果 18
ICAの分離原理:中心極限定理の検証 • と を独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 • それぞれのサイコロを100万回降った結果 – どんどんガウス分布に近づいてゆく(中心極限定理) 19
ICAの分離原理:中心極限定理の検証 • は , およそ3.3 s Amplitude Amplitude – – 番目の話者の音声信号 Time samples Amount Amount Time samples Amplitude Amplitude 20
ICAの分離原理:中心極限定理の検証 – – 番目の話者の音声信号 , およそ3.3 s Amplitude は Time samples Amount • Amplitude 21
ICAの分離原理:中心極限定理の検証 • は , およそ3.3 s Amplitude Amplitude – – 番目の話者の音声信号 Time samples Amount Amount Time samples Amplitude Amplitude 22
ICAの分離原理:中心極限定理の検証 – – 番目の話者の音声信号 , およそ3.3 s Amplitude は Time samples Amount • Amplitude 23
ICAの分離原理:中心極限定理の検証 – – 番目の話者の音声信号 , およそ3.3 s Amplitude は Time samples ほぼ ガウス分布 Amount • Amplitude 24
ICAの分離原理:非ガウス性・独立性の最大化 • 中心極限定理から言えること – ガウス分布は「確率変数の混合」の極限にある – もし各信号の非ガウス性を最大化することができるならば, 混合する前の信号を推定することができる(かもしれない) 混ざることでガウス分布に 近づいてゆく(中心極限定理) 各成分の 非ガウス性最大化 非ガウス性を最大化すること で分離されてゆく(ICA) より一般的には 成分間の 独立性最大化 ICAの音源分離の原理 25
ICAの分離原理:前提条件 • ICAにおける前提条件(用いられる仮定) – 1. 混合前の各音源は互いに独立である – 2. 混合前の各音源は非ガウスな分布に従う – 3. 混合系は時不変であり逆系(分離系)が存在する 未知の音源 混合系 1. 互いに独立 2. 非ガウスな分布 観測できる 混合信号 3. 時不変かつ 逆系が存在 逆行列 10
ICAの分離原理:不確定性 • ICAにおける不確定性 – 1. 分離信号のスケール(音量)は決定できない – 2. 分離信号の順番(パーミュテーション)は決定できない 未知の音源 観測できる 混合信号 推定された 分離信号 ICA 未知の音源 観測できる 混合信号 推定された 分離信号 ICA 11
周波数領域ICA(FDICA) • 実際の音響信号の混合 – 残響による畳み込み混合 • 例: 会議室では300 ms,コンサートホールでは2 s等 畳み込み混合 残響長 瞬時混合 (混合フィルタのタップ長) – 時不変混合係数 が時不変混合フィルタ に変化 • 畳み込み混合の分離系をICAでどう推定するか – 1. 時間領域での逆フィルタ を推定 • 16 kHzサンプルでは300 msのフィルタ長が4800タップ(1音源あたり) • ICAで推定すべきパラメータが爆発的に増加→推定は困難 – 2. 周波数領域でICAを適用(フーリエ変換で畳み込みを積に) • 周波数毎の分離行列 を周波数毎のICAで推定→推定は容易 • パーミュテーション問題に直面 28
周波数領域ICA(FDICA) • 短時間フーリエ変換(short-time Fourier transform: STFT) – 音響信号を短時間で切り出して周波数領域に変換 時間信号 スペクトログラム … フーリエ変換 窓関数 フーリエ変換 シフト長 Frequency フーリエ変換 窓長 … Time 窓長 – 畳み込み混合を周波数領域の瞬時混合に変換 • フーリエ変換により「畳み込み」が「積」に変換されるため – ICA理論がそのまま適用可能 • 一つ一つの周波数に独立なICAを適用し周波数毎の分離行列を推定 29
周波数領域ICA(FDICA) • 周波数領域ICA(FDICA)[Smaragdis, 1998] … … … Frequency bin – 各周波数ビンの複素時系列に対して独立なICAを適用 多チャネルスペクトログラム ICA1 ICA2 ICA3 ICA Time frame 周波数領域の時不変 瞬時混合行列 逆行列 30
周波数領域ICA(FDICA) • FDICAにおけるパーミュテーション問題 – 各周波数ビンで推定信号の順序がバラバラになる – 様々なパーミュテーションソルバが検討されている 分離信号1 音源1 観測1 ICA Time 音源2 Permutation Solver 分離信号2 観測2 全て時間周波数 領域の信号 ※分散(スケール)もバラバラになるが,これは容易に戻すことが可能 31
到来方向を用いたパーミュテーション解決 • FDICA+DOAクラスタリング[Saruwatari, 2006] – 推定分離フィルタ から混合フィルタ を逆算 – 音源の到来方向(DOA)でクラスタリング 音源 とマイクアレイ間の 伝達系を表す 「ステアリングベクトル」 混合行列の列ベクトル 正面 右 DOA クラスタリング 左 正面 到来方向(DOA) 右 推定された 音源成分の頻度 推定された 音源成分の頻度 左 Source 1 Source 2 左 正面 右 到来方向(DOA) 32
独立ベクトル分析(IVA) • パーミュテーション問題解決のエレガントなアプローチ – 分離フィルタ推定(周波数毎のICAの最適化) 1個の問題の – パーミュテーション問題の解決(ポスト処理) 最適化で実現したい • 独立ベクトル分析(IVA)[Hiroe, 2006], [Kim, 2006] スカラー – ICAを多変量(多次元)分布モデルへ拡張( – 周波数をまとめたベクトル変数に対するICA 多変量非ガウス分布 混合行列 観測信号 ベクトル 分離行列 ) 推定信号 互いに独立 … … … … … 互いに高次相関を持つ 同じ時間変動を持つ周波数成分を「一つの音源」にまとめる 33
FDICAとIVAの分離原理比較 • FDICAの分離原理 推定信号 STFT 分離フィルタ 推定信号の分布形状が,あらかじめ仮定した 非ガウスな音源分布に近づくよう分離フィルタを更新 Time Frequency 観測信号 Frequency 中心極限定理より,混合信号 本来の音源信号は はガウス分布に近い信号 非ガウス分布に従う スカラーの 確率変数 推定信号の 現在の分布形状 非ガウスな 音源分布 互いに 独立 Time • IVAの分離原理 Frequency 推定信号 分離フィルタ STFT 推定信号の分布形状が,あらかじめ仮定した 非ガウスな球対称多変量音源分布に近づくよう 分離フィルタを更新 Time Frequency 観測信号 ベクトルの多変量 確率変数 非ガウスな 球対称多変量 推定信号の 音源分布 現在の分布形状 互いに 独立 Time 34
発表の概要 • 研究の背景 – 音源分離問題の工学的意義と技術的俯瞰 • ブラインド音源分離と独立成分分析 – 前提条件,問題解決に利用可能な手掛かり – 周波数領域への適用,耐残響性の向上 • 音楽信号の効率的なモデリング – 非負値行列因子分解による低ランク近似 – 板倉斎藤擬距離に基づく最尤推定 独立成分分析 に由来する音源分離法 の発展 (1994年~2012年) 非負値行列因子分解 に由来する非負行列モ デリング法の発展 (1999年~2013年) • 独立低ランク行列分析によるブラインド音源分離 – 独立低ランク行列分析 – 多チャネル非負値行列因子分解との関連性 • まとめとさらなる発展 – より高精度なブラインド音源分離を目指して 35
音源分離の歴史と発展(一部) • 基礎理論とその拡張手法 1994 独立成分分析(ICA) 1998 周波数領域ICA(FDICA) 年代 1999 2006 パーミュテーション問題 解決法の検討 独立ベクトル分析(IVA) 2011 補助関数IVA(AuxIVA) 2012 時変複素ガウスIVA 2016 非負値行列因子分解(NMF) NMFの様々な問題への適用 生成モデル的解釈の発見 各種拡張手法 板倉斎藤擬距離NMF(ISNMF) 2009 2013 代表的なもののみ記述 多チャネルNMF 独立低ランク行列分析(ILRMA) 36
非負値行列因子分解による音のモデリング • 非負値行列因子分解(NMF) [Lee, 1999] – 非負制約付きの任意基底数( 本)による低ランク近似 • 限られた数の非負基底ベクトルとそれらの非負係数を抽出 – STFTで得られるパワースペクトログラムに適用 • 頻出するスペクトルパターンとそれらの時間的な強度変化 Time 基底 Amplitude 基底行列 アクティベーション行列 (スペクトルパターン) (時間的強度変化) Frequency Frequency 混合された観測行列 (パワースペクトログラム) アクティベーション Time Amplitude : 周波数ビン数 : 時間フレーム数 : 基底数 37
NMFによる低ランク近似と音源分離の例 • 例 Pf. and Cl. ランク1の スペクトログラムの和 38
NMFによる低ランク近似と音源分離の例 • 例 Pf. and Cl. Pf. Cl. – Pf. と Cl. が分離された! – 実際は30本等の基底で混合信号を分解 • どの基底がPf.でどの基底がCl.かを推定しなければならない • NMF音源分離は「複数の基底を音源ごとにクラスタリングする問題」 • ブラインドでは難しい・・・(挑戦例もあり) 39
NMFのパラメータ推定 • NMFにおける変数の最適化 – 観測 とモデル の距離をコストとし変数について最小化 – 距離関数は任意 • 二乗ユークリッド距離,KLダイバージェンス,板倉斎藤擬距離,・・・ – いずれの距離関数でも閉形式の解は未発見 – 効率的な反復更新による最適化アルゴリズム • 補助関数法に基づく乗算型更新式(最も有名) [Lee, 2000] (コスト関数が二乗ユークリッド距離の場合) 40
NMFと音楽信号の相性 • 音楽信号の音源分離の特徴 – 離散的構造 限られた数の音高(ピッチ)の重ね合わせ • 重なり合った音をパーツ単位に分割しその線形結合で表現できる 限られた数の音価(音の長さ) 限られた数の音高(音の高さ) 離散的なパーツの重ね合 わせで構成されている • 離散的構造を持つ信号の適切な表現 – 音楽信号の「低ランクな時間周波数構造」 – NMFの「低ランク近似分解」 • 音源分離以外にも音楽信号処理で広く活用されている – 自動採譜,ビートトラッキング,超解像,・・・ 41
音楽信号は本当に低ランク? ドラム ギター ボーカル 音声 42
音楽信号は本当に低ランク? • 低ランク性の指標(行列の構造のシンプルさ) – 累積特異値(cumulative singular value)で確認できる • 行列を特異値分解して得られる特異値を大きい順に並べたときの累積 95% line 7 29 Around 90 累積特異値が95%に達するときの 基底の本数 (スペクトログラムのサイズは1025x1883) – ボーカル及び音声は楽器音ほど低ランクではない – 楽器音は少ない数の音パーツ(基底)で構成(離散的構造) 43
板倉斎藤擬距離基準NMF(ISNMF) • 板倉斎藤擬距離に基づくNMF[Févotte, 2009] 最小化は等価 点対称零平均複素ガウス分布 観測の複素数値 複素ガウスの分散 • この生成モデルはガウス分布の再生性を用いて分解可 – とおくと 44
板倉斎藤擬距離基準NMF(ISNMF) • パワースペクトログラムは複素ガウスの分散に対応 パワーが小=分散が小 殆ど0付近の複素数しか 生成しない Frequency bin : パワースペクトログラム 但し濃淡が濃い方が 大きなパワーを示す Time frame パワーが大=分散が大 大きな振幅の複素数も 生成しうる 各時間周波数で分散が変動する複素ガウス分布 巨視的(マクロ)に考えると分散が変動する為,スペクト ログラム全体の密度分布 はスーパーガウシアン (カートシスがガウス分布より大)な分布になっている 45
発表の概要 • 研究の背景 – 音源分離問題の工学的意義と技術的俯瞰 • ブラインド音源分離と独立成分分析 – 前提条件,問題解決に利用可能な手掛かり – 周波数領域への適用,耐残響性の向上 • 音楽信号の効率的なモデリング – 非負値行列因子分解による低ランク近似 – 多次元観測音響信号への拡張 独立成分分析 に由来する信号源分離 法の発展 (1994年~2012年) 非負値行列因子分解 に由来する非負行列モ デリング法の発展 (1999年~2013年) • 独立低ランク行列分析によるブラインド音源分離 – 独立低ランク行列分析 – 多チャネル非負値行列因子分解との関連性 • まとめとさらなる発展 – より高精度なブラインド音源分離を目指して 46
動機 • ICAで仮定される非ガウス音源分布 – 分離行列を推定する唯一の手がかり:音源モデル 音源 混合系 分離行列 モデル – 正確な音源モデル 高精度な分離行列の推定 • ISNMFは音源の時間周波数 構造を分散の変動で表現 • 低ランク時間周波数構造をICAの音源モデルに導入 独立低ランク行列分析(ILRMA)[Kitamura, 2016] 47
Frequency IVAの 音源モデル Frequency 「低ランク性」の音源モデルへの導入 Time 濃淡が分散の大小 分散の大小は音源のパワーの大小 Time 時変な成分 周波数方向には一様な分散 Basis Frequency ILRMAの 音源モデル Frequency 時間周波数上での分散の変動を NMFで低ランク表現 Time Time Basis 基底数(音源モデルのランク数)は任意 48
提案手法:IVAとNMFを融合した新しいBSS イ ル マ • 独立低ランク行列分析(independent low-rank matrix analysis: ILRMA) – 時間周波数で分散が変動する複素ガウス分布を仮定 複素ガウス分布 時間周波数変動分散 (低ランク音源モデル) 非ガウス分布 Basis Frequency ILRMAの 音源モデル Frequency – 分離音源が「互いに独立」かつ「できるだけ低ランク」になる Time Time Basis 基底数(音源モデルのランク数)は任意 49
提案手法:IVAとNMFを融合した新しいBSS • FDICA,IVA,及びILRMAの比較 FDICAの音源モデル スカラー変数の非ガウス分布 IVAの音源モデル ILRMAの音源モデル NMFによる低ランクな 時間周波数構造 推定信号 分離 フィルタ 低ランクな時間周波数構造を 持つように分離フィルタを更新 Frequency 観測信号 Frequency ベクトル変数の多変量な 球対称非ガウス分布 Time ILRMAの分離原理 Time 1. 音源間の独立性を最大化(混合信号は独立になっていない) 2. 音源毎の時間周波数構造は低ランク(混合信号の時間周波数構造は高ランク) 50
ILRMAのコスト関数と潜在変数の導入 • ILRMAのコスト(対数尤度)関数 IVAのコスト関数 (空間分離フィルタの推定に寄与) – IVAの反復更新式 – NMFの反復更新式 分離信号: ISNMFのコスト関数 (音源モデルの推定に寄与) 2つの交互最適化反復で 全変数を容易に推定可能 • 音源の適切なランク数を潜在変数で推定することも可能 潜在変数の導入 0~1の値をとる潜在変数 – Ex. ボーカルはあまり低ランクにならず,ドラムは低ランク 51
ILRMAの最適化 • ILRMAの反復更新式(最尤推定) – NMF変数の最適化は補助関数法に基づく乗法更新式 空間分離フィルタと分離信号の更新 音源モデルの更新 但し, , は 番目の要素のみ1で 他 は0の縦ベクトル – 反復で尤度が単調増加することが保証されている • 必ずどこかの局所解(停留点)へ収束 52
ILRMAの更新のイメージ • 音源毎の空間情報(空間モデル)と 各音源の音色構造(音源モデル)を交互に学習 音源モデル 音源モデル の学習 空間分離フィルタ の学習 NMF の更新 NMF 混合信号 分離信号 – 音源毎の時間周波数構造を正確に捉えることで,独立性基準 での線形時不変な空間分離の性能向上が期待できる 53
IVA,多チャネルNMF,ILRMAの関連性 • 多チャネルNMF(MNMF) [Sawada, 2013] からみると – 混合系の推定を分離行列の推定問題に変換(高速,安定) 混合系 分離行列 MNMF ILRMA • IVAからみると Basis Time Frequency Frequency – 音源モデルの基底数を1から任意数に拡張 Time Basis IVA ILRMA 54
IVA,多チャネルNMF,ILRMAの関連性 • 独立に発展したIVAと多チャネルNMFが実は密接に関 連している事実を世界で初めて理論的に証明 空間モデル 柔軟 限定的 – 証明の詳細はEA原稿3.4節に記載 多チャネル NMF 空間相関行列を ランク1行列に制限 分離行列に変数変換 IVA NMFの音源 モデルを導入 限定的 音源モデル ILRMA 柔軟 55
音楽音源分離実験の条件 • 実験条件 音源信号 窓長(FFT長) シフト長 基底数 主観評価値 SiSECのプロ音楽信号に,RWCP収録のマイクアレーインパルス 応答で畳み込んで作成,2チャンネルで2音源の混合信号 512 ms,ハニング窓 128 ms (1/4シフト) 1音源につき30本(ILRMA1),全音源で60本(ILRMA2) SDR改善値(音質と分離度合いを含む総合的な分離性能) Impulse response E2A (reverberation time: 300 ms) Source 1 Source 2 Impulse response JR2 (reverberation time: 470 ms) Source 1 Source 2 2m 50 50 5.66 cm 2m 60 60 5.66 cm 56
実験結果: fort_minor-remember_the_name SDR improvement [dB] Good E2A (300 ms) 16 Violin synth. 12 8 4 0 -4 -8 Good 16 SDR improvement [dB] Poor JR2 (470 ms) Poor Vocals Directional clustering IVA Violin synth. Ozerov’s Ozerov’s Sawada’s Proposed Proposed Sawada’s MNMF MNMF with MNMF method method MNMF random w/o with initialized by initialization partitioning partitioning proposed function function method Vocals 12 8 4 0 -4 -8 Directional clustering IVA Ozerov’s Ozerov’s Sawada’s Proposed Proposed Sawada’s MNMF MNMF with MNMF method method MNMF random w/o with initialized by initialization partitioning partitioning proposed function function method 57
実験結果: ultimate_nz_tour SDR improvement [dB] Good E2A (300 ms) 20 Guitar 15 10 5 0 -5 Good 20 SDR improvement [dB] Poor JR2 (470 ms) Poor Synth. Directional clustering IVA Guitar Ozerov’s Ozerov’s Sawada’s Proposed Proposed Sawada’s MNMF MNMF with MNMF method method MNMF random w/o with initialized by initialization partitioning partitioning proposed function function method Synth. 15 10 5 0 -5 Directional clustering IVA Ozerov’s Ozerov’s Sawada’s Proposed Proposed Sawada’s MNMF MNMF with MNMF method method MNMF random w/o with initialized by initialization partitioning partitioning proposed function function method 58
各手法の性能と計算コストの比較例 • SiSECデータベース収録のプロ音楽信号 – ファイル名: bearlin-roads__snip_85_99,14 s(16 kHzサンプル) – 音源: acoustic_guit_main, bass, vocalsの3音源 Good 12 SDR improvement [dB] 10 15.1 s 60.7 s 8 11.5 s 6 7647.3 s 4 IVA MNMF ILRMA (潜在変数無) ILRMA (潜在変数有) 2 0 Poor -2 0 100 200 Iteration steps 300 400 59
各手法の性能の主観評価による比較 • 音声信号と音楽信号の分離結果を主観評価で比較 – 聴覚の正常な20代の男性10名女性4名 – サーストンの一対比較法(間隔尺度) 1.6 Subjective score 1.2 Speech signals Music signals 0.8 0.4 0.0 -0.4 -0.8 -1.2 IVA Multichannel NMF ILRMA 60
音源分離デモンストレーション:音楽分離の例 • 音楽信号 – “Ultimate NZ tour”,3音源 – イコライザ(音色の変更)では不可能な処理 提案法による パートごとの 音源分離 Vocal Keyboard Guitar Vocal Keyboard 3つのパートが鳴っていること Guitar に注意して聞いてください 他のデモ:http://d-kitamura.net/demo.htm 61
災害現場でのヘビ型被害者捜索ロボット • 内閣府 革新的研究開発推進プログラム(ImPACT) – 災害現場での被害者捜索用ヘビ型ロボットに応用 [Bando, 2016] • 成果:プレスリリース,論文採録 処理前の観測音 (ロボットの駆動ノイズが大きい) 提案法による 音源分離 強調された音声信号 62
発表の概要 • 研究の背景 – 音源分離問題の工学的意義と技術的俯瞰 • ブラインド音源分離と独立成分分析 – 前提条件,問題解決に利用可能な手掛かり – 周波数領域への適用,耐残響性の向上 • 音楽信号の効率的なモデリング – 非負値行列因子分解による低ランク近似 – 板倉斎藤擬距離に基づく最尤推定 独立成分分析 に由来する信号源分離 法の発展 (1994年~2012年) 非負値行列因子分解 に由来する非負行列モ デリング法の発展 (1999年~2013年) • 独立低ランク行列分析によるブラインド音源分離 – 独立低ランク行列分析 – 多チャネル非負値行列因子分解との関連性 • まとめとさらなる発展 – より高精度なブラインド音源分離を目指して 63
開拓された新しいブラインド音源分離の形 • 潜在因子への構造モデルの導入による発展可能性 – 確率分布モデルでは困難だった詳細な「操作(induce)」が可能 領域の指定 – ユーザとのインタラクション • ユーザが分離の途中で構造モデルに介入 • 例:映画撮影等のプロ用途の音声強調 – 実現可能な学習データの活用 • 音楽信号では「楽譜」は強力な事前情報 時間区間の指定 • 楽譜の構造を直接モデルに反映可能 • 例:芸術性を損なわない超高品質な音楽編集 • その他の音源モデルの導入や教師あり手法への拡張 周波数 スパース グループスパース 周波数 周波数 低ランク 時間 時間 時間 64
参考文献(アルファベット順)(1/3) • [Comon, 1994]: P. Comon, “Independent component analysis, a new concept?” Signal Process., vol. 36, no. 3, pp. 287–314, 1994. • [Févotte, 2009]: C. Févotte, N. Bertin, and J.-L.Durrieu, “Nonnegative matrix factorization with the Itakura-Saito divergence. With application to music analysis,” Neural Comput., vol. 21, no. 3, pp. 793–830, 2009. • [Hiroe, 2006]: A. Hiroe, “Solution of permutation problem in frequency domain ICA using multivariate probability density functions,” Proc. Int. Conf. Independent Compon. Anal. Blind Source Separation, 2006, pp. 601–608. • [Kim, 2006]: T. Kim, T. Eltoft, and T.-W. Lee, “Independent vector analysis: An extension of ICA to multivariate components,” Proc. Int. Conf. Independent Compon. Anal. Blind Source Separation, 2006, pp. 165–172. • [Kim, 2007]: T. Kim, H. T. Attias, S.-Y. Lee, and T.-W. Lee, “Blind source separation exploiting higher-order frequency dependencies,” IEEE Trans. Audio, Speech, Lang. Process., vol. 15, no. 1, pp. 70–79, 2007. • [Kitamura, 2016]: D. Kitamura, H. Saruwatari, H. Kameoka, Y. Takahashi, K. Kondo and S. Nakamura, “Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 24, no. 9, pp. 1626–1641, 2016. 65
参考文献(アルファベット順)(2/3) • [Lee, 1999]: D. D. Lee and H. S. Seung, “Learning the parts of objects by non-negative matrix factorization,” Nature, vol. 401, pp. 788–791, 1999. • [Lee, 2000]: D. D. Lee and H. S. Seung, “Algorithms for non-negative matrix factorization,” Proc. Adv. Neural Inform. Process. Syst., 2000, vol. 13, pp. 556–562. • [Ono, 2011]: N. Ono, “Stable and fast update rules for independent vector analysis based on auxiliary function technique,” Proc. IEEE Workshop on Applications of Signal Process. to Audio and Acoust., 2011, pp. 189–192. • [Ono, 2012]: T. Ono, N. Ono, and S. Sagayama, “User-guided independent vector analysis with source activity tuning,” Proc. ICASSP, 2012, pp. 2417–2420. • [Ozerov, 2010]: A. Ozerov and C. Févotte, “Multichannel nonnegative matrix factorization in convolutive mixtures for audio source separation,” IEEE Trans. Audio, Speech, and Lang. Process., vol. 18, no. 3, pp. 550–563, 2010. • [Saruwatari, 2000]: S. Kurita, H. Saruwatari, S. Kajita, K. Takeda, and F. Itakura, “Evaluation of blind signal separation method using directivity pattern under reverberant conditions,” Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2000, pp. 3140–3143. • [Saruwatari, 2006]: H. Saruwatari, T. Kawamura, T. Nishikawa, A. Lee, and K. Shikano, “Blind source separation based on a fast-convergence algorithm combining ICA and beamforming,” IEEE Trans. Audio, Speech, Lang. Process., vol. 14, no. 2, pp. 666–678, Mar. 2006. 66
参考文献(アルファベット順)(3/3) • [Sawada, 2004]: H. Sawada, R. Mukai, S. Araki, and S.Makino, “Convolutive blind source separation for more than two sources in the frequency domain,” Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2004, pp. III-885–III-888. • [Sawada, 2013]: H. Sawada, H.Kameoka, S.Araki, and N. Ueda, “Multichannel extensions of non-negative matrix factorization with complex-valued data,” IEEE Trans. Audio, Speech, Lang. Process., vol. 21, no. 5, pp. 971–982, 2013. • [Smaragdis, 1998]: P. Smaragdis, “Blind separation of convolved mixtures in the frequency domain,” Neurocomputing, vol. 22, pp. 21–34, 1998. 67