1.8K Views
March 16, 18
スライド概要
北村大地, 角野隼斗, 高宗典玄, 高道慎之介, 猿渡洋, 猿渡洋, 小野順貴, "独立深層学習行列分析に基づく多チャネル音源分離の実験的評価," IEICE Technical Report, EA2017-104, vol. 117, no. 515, pp. 13–20, Okinawa, March 2018.
Daichi Kitamura, Hayato Sumino, Norihiro Takamune, Shinnosuke Takamichi, Hiroshi Saruwatari, and Nobutaka Ono, "Experimental evaluation of multichannel audio source separation based on IDLMA," IEICE Technical Report, EA2017-104, vol. 117, no. 515, pp. 13–20, Okinawa, March 2018 (in Japanese)
http://d-kitamura.net/links_en.html
日本音響学会2018年春季研究発表会 2018年3月19日10:00–11:40 午前EA/SPオーガナイズドセッション (音声音響信号処理研究における機械学習技術の研究と応用) EA-3. 独立深層学習行列分析に基づく 多チャネル音源分離の実験的評価 Experimental evaluation of multichannel audio source separation based on IDLMA 北村大地, 角野隼斗,高宗典玄, 高道慎之介, 猿渡洋(東大) 小野順貴(首都大東京)
背景 • ブラインド音源分離(blind source separation: BSS) – 混合系 (マイクや音源位置の部屋の形状等)が未知 混合系 分離系 • 優決定条件(マイク数≧音源数)のBSS – 音源間の独立性に基づく分離系 の推定 • 独立成分分析(ICA)[P. Comon, 1994] • 周波数領域ICA(FDICA)[P. Smaragdis, 1998], [H. Saruwatari+, 2000], [H. Sawada+, 2004], ・・・ • 独立ベクトル分析(IVA)[A. Hiroe, 2006], [T. Kim+, 2006], [T. Kim+, 2007] • 劣決定条件(マイク数<音源数)のBSS – 混合系 の推定(時間周波数マスク) • Sparse coding [P. Bofill+, 2001], [S. Araki+, 2007] • Duong法 [N. Q. K. Duong+, 2010] 2
音源分離の歴史と発展(関連手法のみ掲載) 多チャネル信号 優決定条件 1994 単一チャネル信号 劣決定条件 独立成分分析(ICA) [Comon],[Bell and Sejnowski], [Cardoso], [Amari], [Cichocki], … 1998 1999 周波数領域ICA(FDICA) [Smaragdis] 非負値行列因子分解 (NMF) パーミュテーション問題 の解決法 [Saruwatari], [Murata], [Lee] [Morgan], [Sawada], … 2006 数理モデルの拡張 生成モデル的解釈の発見 独立ベクトル分析(IVA) [Virtanen], [Smaragdis], [Kameoka], [Ozerov], … [Hiroe], [Kim] 2009 2010 2011 2012 2013 板倉斎藤擬距離NMF (ISNMF) Duong法 補助関数IVA(AuxIVA) [Duong] [Ono] 時変複素ガウスIVA [Ono] 多チャネルNMF [Sawada] 2016 独立低ランク行列分析 (ILRMA) [Kitamura] 2018 [Févotte] Duong+DNN法 深層ニューラルネットワーク (DNN) [Hinton], … [Nugraha] 独立深層学習行列分析 (IDLMA) [Kitamura] 3
本発表の概要 • 優決定条件(マイク数≧音源数)が対象 – 混合系 の逆系(分離系 推定対象 )が存在 分離系 • BSSで活用されるモデル – 空間モデル:分離系 推定の仮定 • 音源間の独立性と種は数領域での瞬時混合(ICA,IVA,ILRMA) – 音源モデル:分離信号の時間周波数構造の仮定 • グループスパース性(IVA),低ランク性(ILRMA) – 不適切な音源モデルによる性能の劣化 • パーミュテーション問題 • 独立深層学習行列分析(IDLMA) – ICA由来の「独立性に基づく分離系推定」 • 空間モデル(分離系 )はブラインド推定 – DNNで構築する「教師あり音源モデル」 • 音源モデルは学習データ(教師)より獲得 ブラインド 音源モデル 教師あり ICA IVA ILRMA IDLMA 4
記号の定義と定式化 • 音源数 ,マイク数(チャネル数) – 決定系条件 を考える • 短時間フーリエ変換(STFT)して得られる各信号 – 多チャネル観測信号 ただし 周波数 時間 時不変混合行列 – 混合行列の逆行列 多チャネル分離信号 が存在するとき, とおくと • 時間周波数行列としての表記 音源スペクトログラム 観測スペクトログラム – 要素毎の絶対値および指数演算を • 例: 分離スペクトログラム で表す チャネルの観測パワースペクトログラム 5
音源の生成モデル • 時間周波数分散変動型複素ガウス分布 [Févotte, 2009] – 時間周波数の各成分が平均0分散 ガウス分布に従う の独立な原点対称複素 分散(パワーの期待値) Frequency bin : パワースペクトログラム 濃淡がパワーの 大きさを示す Time frame パワーが小=分散が小 0付近の複素数しか生成しない パワーが大=分散が大 大振幅の複素数も生成しうる 6
音源の生成モデル • 時間周波数分散変動型複素ガウス分布 [Févotte, 2009] – 時間周波数の各成分が平均0分散 ガウス分布に従う の独立な原点対称複素 分散(パワーの期待値) • 分散の最尤推定は板倉斎藤擬距離の最小化と等価 板倉斎藤 擬距離 での 偏微分は 同じ 7
独立性に基づく最適化 • 多チャネル観測信号の負対数尤度 独立性仮定 音源の生成モデル • 原点対称複素ガウス分布 独立性に基づく分離行列 (空間モデル) の推定 のとき 生成モデルに基づく分散行列 (音源モデル) の推定 8
音源モデル:分散の構造的仮定 • 分離信号 や分散 に何も仮定をおかない(FDICA) – 分離行列 が周波数に関して非依存(separable) パーミュテーション問題を引き起こす 分離信号1 音源1 観測1 分離 行列 音源2 Time パーミュテーション 分離信号2 の整合 観測2 9
音源モデル:分散の構造的仮定 • 分離信号のパワースペクトログラム グループスパース性を仮定 Frequency に対して – 同時に生起する周波数成分は同じ音源 Time としてまとまる パーミュテーション問題の回避 – 独立ベクトル分析(IVA) [A. Hiroe, 2006], [T. Kim+, 2006], [T. Kim+, 2007] に対して低ランク構造を仮定 NMFによる表現(ランク ) Frequency • 生成モデルの分散行列 – 各音源の低ランク構造( )を推定 パーミュテーション問題を回避 – 低ランクな音源が混ざるとランクは増える 低ランクに誘導することで音源が分離される – 独立低ランク行列分析(ILRMA) [D. Kitamura, 2016] Time 10
提案手法:動機 • 不適切な音源モデルを仮定してしまうと分離精度が劣化 – 例:ボーカルや音声は楽器音ほど低ランクではない (ダイナミックにピッチが変動するため) Vocals Drums Guitar • 音源モデルの教師あり学習 – DNNに基づく単一チャネルの音源分離モデル • 音楽や音声など「ソロ音源の学習データ」は利用可能な時代 • 空間モデルは学習可能? – 部屋の形状,残響時間,マイクロホン位置,音源位置,音速等 膨大な物理要因に依存 非現実的! – 独立性に基づくブラインドな推定は有用 11
提案手法:独立深層学習行列分析 • 独立低ランク行列分析(ILRMA) NMFによる低ランク近似 分離信号 周波数毎の 分離行列 STFT 分離信号が「互いに独立」かつ「低ランクな時 間周波数構造」を持つように分離行列を更新 Frequency Frequency 観測信号 Time Time 音源モデルを教師あり化 • 独立深層学習行列分析(independent deeply learned matrix analysis: IDLMA) – 統計的独立性と教師ありDNN音源モデルに基づく音源分離 周波数毎の 分離行列 STFT 分離信号が「互いに独立」かつ「学習済みの DNNで表現されるような時間周波数構造」を 持つように分離行列を更新 Time Time Frequency Frequency DNN音源モデルによる分散推定 分離信号 Frequency Frequency 観測信号 Time Time 12
提案手法:DNN音源モデルの学習 • DNNの特徴量 混合ベクトル 推定 ベクトル Frequency 音源1(学習データ) 音源1を分離 するDNN Time ランダムな 振幅値 を乗じて混合 ( ) Frequency 最小化 損失関数 音源2を分離 するDNN 音源2(学習データ) 正解 ベクトル 最小化 損失関数 Time • DNNの損失関数 板倉斎藤擬距離を使うことで 複素ガウス分布生成モデル の最尤推定となる 正解 推定 微小値 13
提案手法:分離行列と分散行列の最適化 • 原点対称複素ガウス分布の負対数尤度 空間モデルの更新 音源モデルの更新 ILRMAと同様に反復射影法(IP) を適用し分離行列 を更新する ことで最小化可能 現在の分離信号 を学習済の DNN音源モデルに入力して分散 を更新することで最小化可能 14
提案手法:分離行列と分散行列の最適化 • 原点対称複素ガウス分布の負対数尤度 空間モデルの更新 音源モデルの更新 ILRMAと同様に反復射影法(IP) を適用し分離行列 を更新する ことで最小化可能 現在の分離信号 を学習済の DNN音源モデルに入力して分散 を更新することで最小化可能 • 反復射影法(iterative projection: IP) [N. Ono, 2011] – 分離行列を行毎( 毎)に更新 更新 固定 固定 固定 更新 固定 … … … 固定 固定 分散 番目の要素が1, 他が0の縦ベクトル の更新 更新 15
提案手法:分離行列と分散行列の最適化 • 原点対称複素ガウス分布の負対数尤度 空間モデルの更新 音源モデルの更新 ILRMAと同様に反復射影法(IP) を適用し分離行列 を更新する ことで最小化可能 現在の分離信号 を学習済の DNN音源モデルに入力して分散 を更新することで最小化可能 • 学習済DNN音源モデルの適用 Time 要素毎のmax演算 を施した行列を返す フロア 処理 Time 微小フロアリング値 Frequency Frequency Frequency – 分離信号 を入力し分散を推定 – IPの数値安定性向上のためフロア処理 Time 16
評価実験:条件(1/2) 学習信号 SiSEC2016 DSD100音楽データセット 開発データ50曲(Ba., Vo., Dr.の3音源) 評価信号 SiSEC2016 DSD100音楽データセット テストデータ25曲のBa./Vo.及びDr./Vo.をRWCPデータベース 収録のE2Aインパルス応答で畳み込んで観測した信号 サンプリング周波数 8 kHzにダウンサンプリング STFTの設定 窓長128, 256, 512, 1024 msのハミング窓 シフト長は常に窓長の半分 評価指標 信号対歪み比(signal-to-distortion ratio: SDR)の改善量 RWCP収録 E2Aインパルス応答 Vo. Ba. or Dr. T60 = 300 ms 2m 40 40 5.66 cm 17
評価実験:条件(2/2) DNNの構造 全結合型フィードフォワード 隠れ層4層,各層のユニット数1024 活性化関数 ReLU(隠れ層及び出力層) 比較手法 ILRMA(ブラインド),DNN+WF, Duong+DNN,提案手法(IDLMA) ILRMA: ブラインド多チャネル分離 分離行列 をIPで推定 DNN+WF: 音源モデル教師あり単一チャネル分離, [S. Uhlich+, 2015] 各音源のDNN出力からWienerフィルタを構築・適用 Duong+DNN: 音源モデル教師あり多チャネル分離, [A. A. Nagraha+, 2016] 音源モデルにDNNを活用, 混合系(フルランク空間相関行列)をEMで推定 IDLMA: 音源モデル教師あり多チャネル分離 提案手法 音源モデルにDNNを活用 分離行列 をIPで推定 18 [D. Kitamura+, 2016]
評価実験:結果(1/4) 真の分散 (Ba.) 真の分散 (Vo.) DNN推定分散 (Ba.) DNN推定分散 (Vo.) 19
評価実験:結果(2/4) • 様々な窓長に対する性能比較(25曲の平均) Ba./Vo.の分離結果 14 IDLMA 10 8 Duong+DNN DNN+WF(単一チャネル) 6 4 ILRMA(ブラインド) 12 SDR improvement [dB] SDR improvement [dB] 12 8 6 Duong+DNN ILRMA(ブラインド) 4 2 0 0 256 512 1024 Window length in STFT [ms] IDLMA 10 2 128 Dr./Vo.の分離結果 14 DNN+WF(単一チャネル) 128 256 512 1024 Window length in STFT [ms] 20
評価実験:結果(3/4) • 反復回数に対する性能比較(25曲の平均) Ba./Vo.の分離結果(512 ms窓) IDLMA 10 Duong+DNN 8 DNN+WF 6 ILRMA 4 2 0 14 ILRMA DNN+WF Duong+DNN IDLMA 0 10 20 30 40 50 60 70 80 90 100 Iteration step 12 SDR improvement [dB] SDR improvement [dB] 14 DNNによる 性能改善 12 Dr./Vo.の分離結果(256 ms窓) 10 8 6 DNNによる 性能改善 IDLMA Duong+DNN ILRMA ILRMA DNN+WF Duong+DNN IDLMA 4 DNN+WF 2 0 0 10 20 30 40 50 60 70 80 90 100 21 Iteration step
評価実験:結果(4/4) • 100回更新時の計算時間例比較(30秒の観測信号) Computational time [s] – Python 3.5.2+Chainer 2.1.0環境 – Intel Core i7-6850K(3.60 GHz,6コア) – DNN音源モデルによる分散推定はGeForce GTX 1080 Ti 350 287.06 s 300 250 200 150 100 50 23.31 s 26.56 s 0 ILRMA Duong+DNN IDLMA 22
IP最適化の性能不安定性 • 分離行列の最適化(IP)は分離フィルタの更新順に依存 – 例:2音源の場合 音源インデクスの昇順 更新 固定 固定 更新 分散 IPによる分離フィルタ 分離行列 の更新式 推定分散 の更新 音源インデクスの降順 固定 更新 更新 固定 分散 の更新 よりよい分離行列の推定の為には 分散行列 が高精度に推定でき た音源を先に更新すべき • 今回はグリーディに全通り( 通り)の更新順を試行 – DNN音源モデルを用いた推定SN比を算出し高い結果を採用 23
IPの更新順の選択基準 • DNN音源モデルに基づく推定SN比 – 現在の分離信号 を音源モデル に入力した際の出力 – 現在の分離信号 中の音源 の成分と残留する他音源 の成分をDNN音源モデルより推定しSN比を算出 • 全時間周波数の総パワーによる推定SN比 全音源に 関して平均 • 各時間周波数グリッドの推定SN比の時間周波数平均 全音源に 関して平均 – IPの更新順の全通りの結果について上記を算出 • 推定SN比が高くなる結果を採用 24
評価実験:IPの更新順選択実験 • 条件は先の評価実験と同様 14 Ba./Vo.の分離結果 12 11 12 11 10 9 8 7 Ascending order Descending order -based order -based order 0 10 20 30 40 50 60 70 80 90 100 Iteration step SDR improvement [dB] SDR improvement [dB] 13 Dr./Vo.の分離結果 10 9 8 7 6 Ascending order Descending order -based order -based order 0 10 20 30 40 50 60 70 80 90 100 25 Iteration step
まとめ • 独立深層学習行列分析(IDLMA,アイドルエムエー) – – – – – 分離系を高速・安定・高精度に推定する多チャネル音源分離 音源モデル:DNNを用いた教師あり推定 空間モデル:統計的独立性に基づくブラインド推定 フルランク空間相関行列を推定するDuong+DNN(低速) 分離行列を推定するIDLMA(高精度・高速) • IPによる分離フィルタの更新順の問題 – DNN音源モデルに基づく選択基準を提案 Sound Demo: http://d-kitamura.net/demo_idlma.htm 26