音源分離における音響モデリング（Acoustic modeling in audio source separation）

1.

日本音響学会サマーセミナー@白馬 2017年9月11日（月）10:30-12:00 音源分離における音響モデリング Acoustic modeling in audio source separation 東京大学大学院情報理工学系研究科特任助教北村大地

2.

今日のスライド SlideShareで「Daichi Kitamura」と検索該当アカウントのスライド一覧にあり〼 Tips SlideShareのアカウント持っている方はパワポ形式でダウンロード可能（音や動画が再生可） 2

3.

自己紹介 • 名前: 北村大地（Daichi Kitamura） • 年齢: 27（1990年3月11日生まれ） • 経歴: 香川高等専門学校（旧高松工業高等専門学校）（16 ~ 22）電気情報工学科→専攻科（創造工学専攻）, 学士（工学）奈良先端科学技術大学院大学（22 ~ 24）情報科学研究科, 修士（工学）総合研究大学院大学（24 ~ 27）複合科学研究科（情報学専攻），博士（情報学） • Twitter: @UDN48_udon サバゲー 3

4.

概要 • 音源分離の目的と応用 – どんな技術？何に使える？今どこまでできる？ – 関連する音響信号処理技術の紹介 • 代表的な音源分離技術の俯瞰 – 単一チャネルと劣決定と優決定，教師情報の有無，用いる仮定 • 1. 非負値行列因子分解（音源モデル化） – 数理・最適化理論，教師ありNMF • 2. ビームフォーミング（空間のモデル化） – 遅延和法，ヌルビームフォーマ，MVDRビームフォーマ • 3. 独立成分分析（音源と空間のモデル化） – 周波数領域ICA，パーミュテーションソルバ，独立ベクトル分析 • まとめ 4

5.

教科書の紹介（本日の内容をほぼ網羅する本） • 「音のアレイ信号処理」 – 日本音響学会編浅野太著コロナ社 – アレイ信号処理の基礎と各技術で用いられる推定理論の数学的準備をしっかり解説したうえで，ビームフォーマ（音源分離），部分空間報（音源定位），音源追跡，ブラインド音源分離を網羅的に解説 • 「詳解独立成分分析」 – アーポ・ヒバリネン他東京電機大学出版局 – ブラインド音源分離の基礎理論である独立成分分析（ICA）について詳しく学びたい場合はこちら，統計的信号処理で用いられる確率統計の基礎も詳しく解説されている • 「Nonnegative Matrix and Tensor Factorizations」 – アンジェイ・チホッキ他 WILEY – 非負値行列因子分解（NMF）の定式化，距離規範，各種拡張，様々な最適化理論が紹介されているが求められる知識レベルは若干高い，うれしいMATLABコード付き 5

6.

概要 • 音源分離の目的と応用 – どんな技術？何に使える？今どこまでできる？ – 関連する音響信号処理技術の紹介 • 代表的な音源分離技術の俯瞰 – 単一チャネルと劣決定と優決定，教師情報の有無，用いる仮定 • 1. 非負値行列因子分解（音源モデル化） – 数理・最適化理論，教師ありNMF • 2. ビームフォーミング（空間のモデル化） – 遅延和法，ヌルビームフォーマ，MVDRビームフォーマ • 3. 独立成分分析（音源と空間のモデル化） – 周波数領域ICA，パーミュテーションソルバ，独立ベクトル分析 • まとめ 6

7.

音源分離はどんな技術？ • 音源分離（audio source separation） – 音響メディアを対象とした信号処理技術の一つ – 音声，ボーカル，楽器音，雑音，複数話者等を「分離」する – 人間の持つカクテルパーティ効果を機械で実現：機械の耳 7

8.

音源分離はどんな技術？ • 音楽音源分離（東京大学猿渡研究室，独立低ランク行列分析）ボーカル音源分離キーボードギターボーカルキーボード３つの音源があることに注意して聞いて下さいギター 8

9.

音源分離はどんな技術？ • 観測信号から「意味のある何か」を推定・抽出する技術 – 混ざっている各音源信号は「有意な潜在因子」 – 例：背景雑音のひどい信号から音声を推定 – 知能情報学・機械学習分野の一大トピック • 機械にどうやって「音を理解」させるかという問題提起 – CASA: computational auditory scene analysis • 「機械の耳」 – 音源分離はあらゆる音理解において必要な最初の信号処理 • いかなるシステムにおいても「雑音は直ちに抑圧されるべき」 • まずは分離，その後になにかしましょう – 音環境認識，音声認識，音楽理解，音の検知・追跡，… 9

10.

音源分離は何に使える？ • 音源分離の応用先（ただし一例） – 補聴器（hearing aid） • うるさい環境での聞きやすさを改善，健常者さえ対象 – 音声認識（automatic speech recognition: ASR） • Siri, Google検索, コルタナ, Amazon Echo, … – 自動採譜（automatic music transcription） • 楽器ごとに楽譜を作成 (Vo., Gt., Ba., …) CD 分離自動採譜楽譜 – 生録音された（たった一度きりの）ライブ音源の再編集 • プロ用のもの（音質改善），個人が楽しむもの (DJのリミックス), … 10

11.

音源分離は今どこまでできる？ • 全然できていません！が，下記は実デバイスで稼働している一例 – スマホ等の複数マイクでの音源分離（音声強調・音声認識） • 使われているのはほとんどMVDRビームフォーマ – イヤホンのノイズキャンセリング機能（雑音抑圧） • アクティブノイズコントロールと呼ばれる「適応フィルタ」の一つ – オーディオ機器の機能のボーカルキャンセラ（音楽再編集） • 位相反転によるキャンセルアウト（音源分離とは言い難い原始的手法） • 何ができていない？ – ものすごくうるさい居酒屋でのストレスフリーな会話 • 眼鏡と同じくらい補聴器が普及するか – 品質を損なわないプロ用途に耐える音楽の超精密な分離 • 70人のオーケストラ演奏から「この人のヴァイオリン」が分離できるか – 音響バーチャルリアリティ • 画像と違ってオクルージョンが起こらない音メディアはまず分離が必須 11

12.

音源分離と切っても切れないご近所トピック • 残響除去（dereverberation） – 長い残響の含まれる信号から残響成分を除去して聞きやすく • 例：駅や空港のアナウンス – キーワード：逆フィルタ推定，（多チャネル）線形予測 • 音源定位・追跡（source localization, source tracking） – 停止している音源や動いている音源の空間的な位置を推定 • 例：コウモリのエコーロケーション – 音源分離をやるか音源定位をやるかたまごが先かにわとりが先か • 位置が分かれば音源分離は容易 • 音源分離できれば音源定位は容易 – キーワード • 音源定位：部分空間法（MUSIC法） • 音源追跡：カルマンフィルタ，パーティクルフィルタ 12

13.

概要 • 音源分離の目的と応用 – どんな技術？何に使える？今どこまでできる？ – 関連する音響信号処理技術の紹介 • 代表的な音源分離技術の俯瞰 – 単一チャネルと劣決定と優決定，教師情報の有無，用いる仮定 • 1. 非負値行列因子分解（音源モデル化） – 数理・最適化理論，教師ありNMF • 2. ビームフォーミング（空間のモデル化） – 遅延和法，ヌルビームフォーマ，MVDRビームフォーマ • 3. 独立成分分析（音源と空間のモデル化） – 周波数領域ICA，パーミュテーションソルバ，独立ベクトル分析 • まとめ 13

14.

音源分離技術俯瞰：観測条件 • 得られる音響信号のチャネル数による条件の違い – 単一チャネル信号（モノラル信号） • 音源分離には最も困難な録音条件 – しかし最も手軽な録音方法 • 音色に関する情報しか得られない – 劣決定条件（音源数 1ch モノラル録音モノラル信号（1-ch）マイク数） • 2チャネル（ステレオ）等だが混合されている音源の方がチャネルよりも多い • 単一チャネルでは得られなかった空間的な情報が得られる L-ch R-ch 音楽CD ステレオ信号（2-ch） – 各マイクで観測した信号間の振幅差と位相差 – 優決定条件（音源数マイク数） 1ch 2ch – 録音はマイクの同期が大変，ケーブルの山！ • 得られる空間的な情報の量も多い … … • 十分な数のマイクがある Mch マイクアレイ多チャネル信号 – 空間情報を使う音源分離は高性能になる 14

15.

音源分離技術俯瞰：前提条件 • 事前に用意できる外部からのヒント（教師情報）の有無 – 何もヒントがないブラインド音源分離 • 単一チャネルでは何らかの仮定の下でのクラスタリング問題 • 劣決定条件では時間周波数マスキング • 優決定条件では独立成分分析 – マイクや音源の位置（空間情報）が分かる • マイクアレイを使うならばマイクの配置（間隔等）は分かるはず • 多チャネルの観測条件ではビームフォーマ – 音色のサンプルがある • 単一チャネルではクラスタリング問題を解くためのヒントになる • 教師あり非負値行列因子分解（サンプルが少ない場合） • ディープニューラルネットワーク（サンプルが大量にある場合） – その他の活用できるヒントがある • 定常雑音仮定，楽譜情報，ユーザアノテーション，カメラ等のセンサ，… 15

16.

音源分離技術俯瞰：問題解決のためのモデル化 • 何をモデル化するか – 音源の音色構造をモデル化（音源モデル） • 例：非負値行列因子分解，時間周波数マスキング， – 空間的な伝達系をモデル化（空間モデル） • 例：ビームフォーマ，方位クラスタリング • どのようにモデル化して解くか（cf. 前半の矢田部浩平先生の資料） – 統計モデル最尤推定，ベイズ推定等 • 時間周波数領域での統計的な性質を仮定，生成モデル • 例：非負値行列因子分解，独立成分分析 – 物理モデル最急降下法，ニュートン法等 • 音波の空間伝達の物理現象を仮定（平面波仮定等） • 例：ビームフォーマ – 回路モデル誤差逆伝搬，確率的勾配法等 • 次元圧縮による特徴量抽出，音源成分毎にクラスタリング • 例：ディープニューラルネットワーク 16

17.

音源分離技術俯瞰：できるだけカテゴライズ • チャネル数と教師情報の有無でカテゴリを分類 – 記載手法はごく一部（しかし有名なもの） • 数多の拡張・応用がある – 今日は赤文字の部分を簡単に解説します条件単一チャネルブラインド教師ありスペクトル情報の教師あり時間周波数マスキング NMF＋スペクトル分類（モノラル信号）音色的な情報時間的な情報音源位置音響的な伝達系教師ありNMF Denoising autoencoder Informed NMF 無し無し（モノラル信号の為）（モノラル信号の為）スペクトル情報の教師あり劣決定（チャネル数＜音源数）スパースコーディング時間周波数マスキング方位クラスタリング多チャネルNMF （チャネル数≧ 音源数） ICA 周波数領域ICA 独立ベクトル分析（IVA）空間情報の教師あり音色的な情報時間的な情報音源位置音響的な伝達系多チャネル深層学習教師あり多チャネル NMF User-guidedな多チャネルNMF 時間周波数マスキング空間辞書ベースのスパースモデリングスペクトル情報の教師あり優決定空間情報の教師あり空間情報の教師あり音色的な情報時間的な情報音源位置音響的な伝達系多チャネル深層学習 User-guided IVA 固定・適応ビームフォーマロバスト適応ビームフォーマ 17

18.

概要 • 音源分離の目的と応用 – どんな技術？何に使える？今どこまでできる？ – 関連する音響信号処理技術の紹介 • 代表的な音源分離技術の俯瞰 – 単一チャネルと劣決定と優決定，教師情報の有無，用いる仮定 • 1. 非負値行列因子分解（音源モデル化） – 数理・最適化理論，教師ありNMF • 2. ビームフォーミング（空間のモデル化） – 遅延和法，ヌルビームフォーマ，MVDRビームフォーマ • 3. 独立成分分析（音源と空間のモデル化） – 周波数領域ICA，パーミュテーションソルバ，独立ベクトル分析 • まとめ 18

19.

音響信号の時間周波数表現 • 時間的に変化する音色（スペクトル）を表現したい – 短時間フーリエ変換（Short-time Fourier transform: STFT）時間領域時間周波数領域 … フーリエ変換窓関数シフト長フーリエ変換長フーリエ変換フーリエ変換周波数時間波形 … 時間スペクトログラム複素数要素を持つ行列要素毎の絶対値と二乗パワースペクトログラム非負（ゼロ以上）の実数要素の行列 19

20.

音声のパワースペクトログラム 20

21.

音楽のパワースペクトログラム 21

22.

特徴的な構造 • スパース（音声も音楽も） – パワーの強い成分（黄色の部分）は全体のほんの一部 – パワーの弱い成分（暗い青色部分）が支配的 • 連続的な軌跡（音声やボーカルのみ） – スペクトルは連続的にダイナミックに変動する • 低ランク（特に音楽） – 同じスペクトルのパターンの繰り返しが多い Speech Music 22

23.

低ランク性の比較ドラムギターボーカル音声 23

24.

低ランク性の比較 • 低ランク性の指標（行列の構造のシンプルさ） – 累積特異値（cumulative singular value）で確認できる • 行列を特異値分解して得られる特異値を大きい順に並べたときの累積 95% line 7 29 Around 90 累積特異値が95％に達するときの基底の本数（スペクトログラムのサイズは1025x1883）「スペクトログラムが低ランク」という構造をモデルとして仮定して音源分離ができる 24

25.

低ランク構造のモデリング手法 • 非負値行列因子分解（nonnegative matrix factorization: NMF） – 非負制約付きの任意基底数（本）による低ランク近似 • 限られた数の非負基底ベクトルとそれらの非負係数を抽出 – STFTで得られるパワースペクトログラムに適用 • 頻出するスペクトルパターンとそれらの時間的な強度変化 Time 基底 Amplitude 基底行列アクティベーション行列 (スペクトルパターン) (時間的強度変化) Frequency Frequency 混合された観測行列 (パワースペクトログラム) アクティベーション Time Amplitude : 周波数ビン数 : 時間フレーム数 : 基底数 25

26.

NMFのパラメータ推定 • NMFにおける変数の最適化 – 観測とモデルの距離をコストとし変数について最小化 – 距離関数は任意 • 二乗ユークリッド距離，KLダイバージェンス，板倉斎藤擬距離，・・・ – いずれの距離関数でも閉形式の解は未発見 – 効率的な反復更新による最適化アルゴリズム • 補助関数法に基づく乗算型更新式（最も有名）（コスト関数が二乗ユークリッド距離の時の更新式） 26

27.

NMFによる低ランク近似と音源分離の例 • 例 Pf. and Cl. ランク1のスペクトログラムの和 27

28.

NMFによる低ランク近似と音源分離の例 • 例 Pf. and Cl. Pf. Cl. – Pf. と Cl. が分離された！ – 実際は30本等の基底で混合信号を分解 • どの基底がPf.でどの基底がCl.かを推定しなければならない • NMF音源分離は「複数の基底を音源ごとにクラスタリングする問題」 • ブラインドでは難しい・・・（挑戦例もあり） 28

29.

教師ありNMFによる音源分離 • もし音源毎の学習（サンプル）データが用意できる場合 • 教師ありNMF（supervised NMF）学習ステージ Pf.の音色（スペクトル）の辞書 Other bases 分離ステージ , , のみ最適化学習ステージで得られる辞書 29

30.

教師ありNMFによる音源分離例 • デモンストレーション – 方位クラスタリングと教師ありNMFのハイブリッド音源分離ピアノの学習データ原曲（混合音）分離されたピアノ音源ベースの学習データ分離されたベース音源 30

31.

教師ありNMFによる音源分離の問題 • 学習データの音色が分離したい音源の音色と異なる場合 – スペクトルが異なるため音源分離の性能は大きく劣化 – 完璧な学習データを用意することは通常不可能目的音源別のピアノ混合信号（本物のPf.とTb.）若干異なる学習データ Amplitude [dB] 混合信号 Real sound Artificial sound by MIDI 60 40 人工Pf.を学習データに用いた教師あり NMFの結果 20 0 -20 0.0 教師あり NMF 0.5 1.0 1.5 2.0 Frequency [kHz] 2.5 3.0 音色の違いの例（人工ピアノと実ピアノ） 31

32.

基底変形型教師ありNMFによる音源分離 • 基底変形型教師ありNMF – 学習した基底に対してというスペクトル変形項を導入学習ステージ若干異なる分離ステージ正負の値をとるスペクトル変形項学習ステージで得られる辞書 32

33.

基底変形型教師ありNMFによる音源分離 • スペクトルの変形範囲を制約 – スペクトルは変形するが近い音色を表す – 別の楽器の音に変形されることを防ぐの場合 ±30% Frequency Frequency 混合信号（本物のPf.とTb.）教師あり NMF 基底変形型教師あり NMF 分離信号分離信号学習データは同じ（人工Pf.音） 33

34.

基底変形型教師ありNMFによる音源分離例 • デモンストレーション – 実際の楽器の演奏録音を人工的な学習データ（シンセサイザーで作成）で分離 Sax.の学習データ（MIDIシンセで作成） Sax.の分離信号残りの信号（カラオケ）原曲（実際の楽器音） Ba.の学習データ（MIDIシンセで作成） Ba.の分離信号残りの信号（カラオケ）本楽曲の著作権はヤマハ株式会社が保有しております。無断で複製、頒布を行なうと著作権法違反となりますので、ご注意くださいますようお願い申し上げます。 Copyright © 2014 Yamaha Corporation. All rights reserved. 34

35.

音源のモデル化による音源分離まとめ • スペクトログラムの低ランク性に基づく音源分離を紹介 – NMFを活用する手法が代表的 • スペクトログラムのモデル化いろいろ時間 NMF ロバストPCA グループスパースモデル自動学習周波数スパース周波数周波数低ランク時間時間時間周波数マスキング調波打楽器音分離ロバストPCA （HPSS） Denoising autoencoder ディープクラスタリング • 音源のモデル化に成功すれば単一チャネルでも分離可 – 多チャネル観測信号の「空間的な情報」に頼らないため • 音源と空間の両方をモデル化する手法もある – 独立成分分析，独立ベクトル分析，独立低ランク行列分析 35

36.

概要 • 音源分離の目的と応用 – どんな技術？何に使える？今どこまでできる？ – 関連する音響信号処理技術の紹介 • 代表的な音源分離技術の俯瞰 – 単一チャネルと劣決定と優決定，教師情報の有無，用いる仮定 • 1. 非負値行列因子分解（音源モデル化） – 数理・最適化理論，教師ありNMF • 2. ビームフォーミング（空間のモデル化） – 遅延和法，ヌルビームフォーマ，MVDRビームフォーマ • 3. 独立成分分析（音源と空間のモデル化） – 周波数領域ICA，パーミュテーションソルバ，独立ベクトル分析 • まとめ 36

37.

マイクロホンアレイと多チャネル観測信号 • マイクロホンアレイ（microphone array） – 複数のマイクロホンを並べた録音機器 – 全マイクは同期状態で録音する（一つのAD変換器で処理） • 「録音開始時刻やサンプリング周波数にズレが無い」ということが重要 • 「非同期マイクロホンアレイ」を対象とする研究も新しいトピック • 多チャネル観測信号（multichannel signal） – 各マイクの時系列信号の他にマイク間の情報（音量差，音色差，時間差）が得られる（空間的な情報） – 「マイクアレイから見てどの方向から音波が到来したか」 37

38.

音のアレイ信号処理におけるビームフォーマ • アレイ信号処理（array signal processing） – センサアレイの多チャネル観測信号を対象とする信号処理 – マイクアレイ（音響），アンテナアレイ（無線通信），脳波センサアレイ（生体信号），地震センサアレイ（地震動）等 • ビームフォーマ又はビームフォーミング（beamforming） – アレイ信号処理の基礎赤字を紹介します – 音源分離・音源定位の両方に応用可 – 固定ビームフォーマ（遅延和法，ヌルビームフォーマ等） • 空間の物理的なモデルのみから構成される空間フィルタ – 適応ビームフォーマ（空間ウィナーフィルタ，MVDR法等） • 観測信号に対して適応的に構成される空間フィルタ – 固定と適応の組み合わせ（一般化サイドローブキャンセラ） – 全て空間的な分離を達成する「フィルタ処理」 38

39.

ビームフォーマの一般型 • 時間領域ではフィルタ出力の和フィルタは時間インデクス畳み込み演算フィルタ … … フィルタ • 周波数領域では周波数毎の複素線形結合は周波数インデクス複素共役複素係数の掛算複素係数複素係数 … … 複素係数 – ベクトル表現ではエルミート（複素共役）転置 39

40.

固定ビームフォーマにおける空間的な物理モデル • 音の到達時間差（time difference of arrival: TDOA） – 物理モデル：音速伝搬してきた平面波が一定の平面波（音源が十分遠方）伝搬距離差に基づく到達時間差が生じる 0° 伝搬距離差伝搬距離差 – 観測される信号ディラックのデルタ関数時間領域周波数領域 40

41.

遅延和ビームフォーマによる音源分離 • 遅延和ビームフォーマ（delay-and-sum beamforming）遅延フィルタ遅延フィルタ遅延フィルタ適切な遅延により波形の位相が揃う – 方向から到来した音は位相が揃った状態で加算強調 – 他方向から到来した音は位相が揃わず加算抑圧 – 遅延を与えるフィルタ設計観測にかかるTDOAはステアリングベクトル（後述）このTDOAを戻すフィルタ 41

42.

なぜ時間領域ではなく周波数領域で議論するか • 時間領域では「時刻ズレ」，周波数領域では「位相ズレ」時間領域周波数領域 • 時刻ズレはどの程度補償できる？ – サンプル周波数：16 kHz，音速：340 m/s，マイク間隔：20 cm，音源の到来方向：30°の場合到達時間差（TDOA） 1サンプルの時間間隔 s s – TDOAはサンプリング間隔よりも短いので補償できない • 周波数領域での位相ズレを補償するフィルタを設計する 42

43.

遅延和ビームフォーマの周波数特性 • より正確な遅延和ビームフォーマの記述各マイクで観測される音量の違いを考慮すると • 遅延和ビームフォーマは強調したい音源の方向が分かれば設計可能 – ステアリングベクトルはで与えられ， TDOA は物理モデルから計算できるため • マイクロホンアレイの形状（マイクロホン数とマイクロホン間隔）に依存してフィルタの周波数特性（指向性）が決まる – 「空間エイリアシング」が原因 – より多くのマイクロホン，より高密度のマイクロホン間隔の方が空間的な分離性能が良い 43

44.

遅延和ビームフォーマの指向性例（0°強調）赤色実線：0.5 kHz 青色破線：1 kHz 緑色破線：2 kHz マイク数11個，アレイサイズ1m，マイク間隔10cm マイク数21個，アレイサイズ2m，マイク間隔10cm 37.5cm マイク数5個，アレイサイズ1m，マイク間隔25cm 12.5cm マイク数5個，アレイサイズ1m，不規則アレイ 44

45.

遅延和ビームフォーマの欠点 • 遅延和ビームフォーマで良い周波数特性を作るために – 低周波帯域で鋭い指向性（サイドローブが小さい）アレイサイズを大きくする – 高周波帯域で空間エイリアシングが起きないマイクロホン間隔を小さくして密に配置する – マイクアレイ及び録音機器の大規模化を招く • 小規模な装置で高性能の空間分離フィルタを作りたい – ヌルビームフォーマ • • • • 原理は遅延和ビームフォーマとほぼ同じ遅延和ビームフォーマは特定の方位を強調ヌルビームフォーマは特定の方位を抑圧空間的な死角（null）を作る空間分離フィルタ 45

46.

ヌルビームフォーマによる音源分離 • ヌルビームフォーマ（null beamforming）遅延フィルタ遅延フィルタ反転位相をそろえて差し引くことで出力を零にする – 方向から到来した音は位相が揃った状態で減算抑圧 – 他方向から到来した音は位相が揃わず減算少し歪む – フィルタ設計は遅延和法と同じ，正負をかえるだけ – マイクロホン数に対して個の方位に死角を形成可能 • たった2個のマイクでも特定の方位の音源を（原理的には）消せる 46

47.

ヌルビームフォーマの指向性例（0°抑圧）赤色実線：0.5 kHz 青色破線：1 kHz 緑色破線：2 kHz マイク数2個，アレイサイズ10cm，マイク間隔10cm マイク数2個，アレイサイズ20cm，マイク間隔20cm • 依然として空間エイリアシングの問題はある – 高周波帯域で目的方位のみにヌルを形成するためにはマイク間隔を小さくする必要がある • マイクロホンの個体差（感度の違い）の問題 – 実際には感度にばらつきがあるため，上図のような深いヌルを形成することは困難 47

48.

固定ビームフォーマまとめ • 目的の音源方位が既知の場合 – 音の空間的な伝搬を物理モデルとして仮定した固定ビームフォーマがよく使われ，単純な原理で信頼性も高い – マイクロホン配置が変わるとフィルタを設計しなおす必要あり • 固定ビームフォーマの欠点 – 物理モデルのみに依存し観測信号を全く使わないため，マイクロホン個体差や物理モデルの精度に敏感 • 室内音場（残響，反射，回折，気温変化），マイクロホン配置の誤差，マイクロホン設置機構の干渉（反射，回折），マイクロホン相互の特性誤差（指向性，周波数特性，感度）等 • 特にヌルビームフォーマではモデル誤差の影響は深刻 • 観測信号を用いた適応的なビームフォーマを考えてゆく – 特に最小分散無歪ビームフォーマ（MVDRビームフォーマ）は多くの製品で実際に用いられている 48

49.

ステアリングベクトル • マイクロホンアレイで観測される信号を表現音源マイクアレイ観測信号伝達係数ベクトル観測ベクトル – 伝達係数ベクトルはステアリングベクトル，アレイ・マニュフォールドベクトル，方向ベクトル，位置ベクトル等と呼ばれる – 音源から各マイクまでの空間的な伝達系（振幅，位相の変化）を複素数の係数で表現する • 前述の遅延和ビームフォーマでは物理モデルからTDOAを計算しステアリングベクトルを記述した 49

50.

MVDRビームフォーマによる音源分離 • 最小分散無歪ビームフォーマ（minimum variance and distortionless response (MVDR) beamforming） – 目的の方位のフィルタ出力（応答）を無歪に制約し，その他の方位の応答を最小化する空間分離フィルタ – 「観測信号の目的方位以外のパワー」を最小化するため，適応ビームフォーマの一種ステアリングベクトルは目的方位とマイクアレイ形状から物理モデルを用いて計算できる – 目的方位の無歪条件簡便のため周波数インデクスは省略（遅延和ビームフォーマと同じ） – ビームフォーマの応答（平均出力パワー），フィルタ観測のチャネル間相関行列，空間相関行列等と呼ばれるは時不変なので 50

51.

MVDRビームフォーマによる音源分離 • 最小分散無歪ビームフォーマ（minimum variance and distortionless response (MVDR) beamforming） – 求めるべきMVDRフィルタは – 等式制約条件付き最小化問題なのでラグランジュの未定乗数法で解ける – 制約が複素数なので実数化するとコスト関数は下記は複素数の未定乗数 – で偏微分＝0を解く • 複素数の偏微分は「実部と虚部」を独立変数とみなす方法と「複素変数とその共役」を独立変数とみなす方法があり，後者は簡便になる 51 • cf. ウィルティンガーの微分

52.

MVDRビームフォーマによる音源分離 • 最小分散無歪ビームフォーマ（minimum variance and distortionless response (MVDR) beamforming） – これを拘束条件に代入して但し（エルミート行列） – よってMVDRビームフォーマのフィルタは 52

53.

MVDRビームフォーマによる音源分離 • MVDRビームフォーマの利点 – 物理モデルと観測信号のチャネル間相関行列を活用 • 観測信号に対して最適なフィルタを設計可能 • 物理モデルの誤差の影響も最小限に抑えられる – 複数方位の無歪化（複数拘束条件）も容易 • 例えば正面0°だけでなく，その近傍の-5°と5°も無歪化することで強調したい方位に少し幅を持った空間分離フィルタの設計などが可能 • MVDRビームフォーマの欠点 – 依然として分離したい目的音源の方位が既知 – 固定ビームフォーマよりも改善されているが，物理モデルの誤差の影響はやはり避けられない • 目的音源方位が分からなくても音源分離できないか？ – 空間モデルだけでなく音源モデルも考慮した独立成分分析の理論へと発展 53

54.

ビームフォーマによる音源分離まとめ • 固定ビームフォーマ – 物理モデルのみに基づくシンプルな空間分離フィルタ – 遅延和ビームフォーマ，ヌルビームフォーマ • 適応ビームフォーマ – 物理モデルと観測信号に基づく空間分離フィルタ – 空間ウィナーフィルタ，最尤推定ビームフォーマ，MVDRビームフォーマ • 両者の組み合わせビームフォーマ – 一般化サイドローブキャンセラ • いずれにしても空間的な物理モデル誤差の影響は常に問題となる 54

55.

概要 • 音源分離の目的と応用 – どんな技術？何に使える？今どこまでできる？ – 関連する音響信号処理技術の紹介 • 代表的な音源分離技術の俯瞰 – 単一チャネルと劣決定と優決定，教師情報の有無，用いる仮定 • 1. 非負値行列因子分解（音源モデル化） – 数理・最適化理論，教師ありNMF • 2. ビームフォーミング（空間のモデル化） – 遅延和法，ヌルビームフォーマ，MVDRビームフォーマ • 3. 独立成分分析（音源と空間のモデル化） – 周波数領域ICA，パーミュテーションソルバ，独立ベクトル分析 • まとめ 55

56.

ブラインド音源分離と独立成分分析 • ブラインド音源分離（blind source separation: BSS） – マイク位置や音源位置等の事前情報を用いずに混合系の逆系（分離系）を推定する信号処理技術混合系分離系 • 話者分離，脳波の分離，画像の分離，電波の分離等 • 独立成分分析（independent component analysis:ICA） – 「音源が非ガウスな分布から生成されている」と「各音源は互いに独立である」という2つの音源モデルに基づき空間分離フィルタを推定する – 実はブラインドな条件のヌルビームフォーマと等価 56

57.

独立成分分析に基づく音源分離の歴史と発展 • 基礎理論とその拡張手法 1994 独立成分分析（ICA） 1998 周波数領域ICA（FDICA） Age 1999 2006 パーミュテーション問題解決法の検討独立ベクトル分析（IVA） 2011 補助関数IVA（AuxIVA） 2012 時変複素ガウスIVA 2016 非負値行列因子分解（NMF） NMFの様々な問題への適用生成モデル的解釈の発見各種拡張手法板倉斎藤擬距離NMF（ISNMF） 2009 2013 代表的なもののみ記述多チャネルNMF 独立低ランク行列分析（ILRMA） 57

58.

IVAとNMFを融合した新しいBSS: ILRMA • FDICA，IVA，及びILRMAの比較 FDICAの音源モデルスカラー変数の非ガウス分布（ラプラス分布）ラプラスIVAの音源モデル NMFによる低ランクな時間周波数構造（時間周波数分散変動型複素ガウス分布）観測信号推定信号分離フィルタ Frequency ILRMAの音源モデル Frequency ベクトル変数の多変量な球対称非ガウス分布（多変量ラプラス分布） Time Time 低ランクな時間周波数構造を持つように分離フィルタを更新 58

59.

音源の分布とは？ Amplitude • 音声波形の分布ガウス分布（正規分布） 0.5 Time samples 0.4 0.3 0.2 0.1 Amount of components 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 0付近で急峻であり，裾が広い分布ガウス分布（正規分布）とは全然違う，非ガウス分布 Amplitude 13

60.

音源の分布とは？ Amplitude • ピアノ音波形の分布ラプラス分布 Time samples 0.6 0.5 0.4 0.3 0.2 0.1 0 Amount of components -5 -4 -3 -2 -1 0 1 2 3 4 5 やはりガウス分布より尖っていて裾が広い Amplitude 13

61.

音源の分布とは？ Amplitude • ドラム音の分布コーシー分布 1 0.8 Time samples 0.6 0.4 0.2 0 Amount of components -5 -4 -3 -2 -1 0 1 2 3 4 5 やはりガウス分布より尖っていて裾が広い Amplitude 13

62.

中心極限定理の検証 • 音源の分布（生成モデル）は多くの場合非ガウスな分布 – しかし混合音しか観測できないので各音源の分布は不明 • 「非ガウスな分布」としか分からないのに音源モデルとして活用できるか？ • 中心極限定理（central limit theorem） – 「いかなる分布から生成される確率変数も足していくとガウス分布に従う確率変数に近づいてゆく」※ ラプラス分布一様分布 0.6 0.5 0.4 0.3 0.2 0.1 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 正規分布 0.01 0.5 0.008 0.4 0.006 0.3 0.004 0.2 0.002 0.1 0 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5 Generate r.v.s • 信じられない？ ※ただし中心極限定理を満たさない確率分布もある（安定分布と呼ばれる） 62

63.

中心極限定理の検証 • とを独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 – では Amount Amount • それぞれのサイコロを100万回降った結果という値はどのような分布に従うか？ 63

64.

中心極限定理の検証 • とを独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 Amount • それぞれのサイコロを100万回降った結果 – ではもはや一様分布ではなくなるはどうか？ 64

65.

中心極限定理の検証 • とを独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 Amount Amount • それぞれのサイコロを100万回降った結果 65

66.

中心極限定理の検証 • とを独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 • それぞれのサイコロを100万回降った結果 – どんどんガウス分布に近づいてゆく（中心極限定理） 66

67.

音響信号を用いた中心極限定理の検証 • は , およそ3.3 s Amplitude Amplitude – – 番目の話者の音声信号 Time samples Amount Amount Time samples Amplitude Amplitude 67

68.

音響信号を用いた中心極限定理の検証 – – 番目の話者の音声信号 , およそ3.3 s Amplitude は Time samples Amount • Amplitude 68

69.

音響信号を用いた中心極限定理の検証 • は , およそ3.3 s Amplitude Amplitude – – 番目の話者の音声信号 Time samples Amount Amount Time samples Amplitude Amplitude 69

70.

音響信号を用いた中心極限定理の検証 – – 番目の話者の音声信号 , およそ3.3 s Amplitude は Time samples Amount • Amplitude 70

71.

音響信号を用いた中心極限定理の検証 – – 番目の話者の音声信号 , およそ3.3 s Amplitude は Time samples ほぼガウス分布 Amount • Amplitude 71

72.

ICAの音源分離の原理 • 中心極限定理から言えること – ガウス分布は「確率変数の混合の極限」にある – もし各信号の非ガウス性を最大化することができたならば, 混合する前の信号を推定することができる（かもしれない）混ざることでガウス分布に近づいてゆく（中心極限定理）非ガウス性を最大化すること非ガウス性を最大化することで分離されてゆく（ICA）より一般的には各成分間の独立性を最大化すること ICAの音源分離の原理 72

73.

ICAの音源分離の原理 • ICAで用いられる仮定 – 1. 混合前の各音源は互いに独立である – 2. 混合前の各音源は非ガウスな分布に従う – 3. 混合系は時不変であり逆系（分離系）が存在する未知の音源混合系 1. 互いに独立 2. 非ガウスな分布観測できる混合信号 3. 時不変かつ逆系が存在逆行列 10

74.

ICAの音源分離の原理 • ICAの不確定性（統計的独立性最大化をしているだけ） – 1. 分離信号のスケール（音量）は決定できない – 2. 分離信号の順番（パーミュテーション）は決定できない未知の音源観測できる混合信号推定された分離信号 ICA 未知の音源観測できる混合信号推定された分離信号 ICA 11

75.

ICAの音源分離の原理 • ICAの動作原理を図解（直観的な理解のため） 75

76.

ICAの音源分離の原理 • ICAの動作原理を図解（直観的な理解のため） 76

77.

ICAの音源分離の原理 • ICAの動作原理を図解（直観的な理解のため） – 混ざる前の2つのソース信号を2軸の散布図にしてみる – 混合前は互いに独立なソース信号なので相関は無く，平面上に円状に分布（すでに若干楕円なのは音量（分散）が同じでないため） 77

78.

ICAの音源分離の原理 • ICAの動作原理を図解（直観的な理解のため） – 混ざった後の2つの混合信号を2軸の散布図にしてみる – 混合後は独立性が失われ，信号間に相関が生じるので，平面上に楕円状に分布 78

79.

ICAの音源分離の原理 • ICAの動作原理を図解（直観的な理解のため） – 1. 2つの観測信号（混合信号）を白色化する • Whitening，sphering等と呼ばれ分散共分散を単位行列化する変換 • 主成分分析（PCA）＋分散の正規化で実現可能 – 2. 2つの白色化した信号のカートシスが最大（非ガウス性が最大）となるような回転行列を探す • ICAの最適化アルゴリズムによって実現可能混合行列混合前のソース信号白色化行列回転行列混合後の観測信号白色化後の観測信号回転後の分離信号分離行列 79

80.

ICAの音源分離の原理 • ICAの動作原理を図解（直観的な理解のため） – 1. 2つの観測信号（混合信号）を白色化する • 白色化は観測信号の分散共分散行列が単位行列となるように変換する • 2つの観測信号間の自己相関値と相互相関値は • の分散共分散行列は但し，第二成分 0.0009 0.0095 主成分の固有値と固有ベクトルは左図 80

81.

ICAの音源分離の原理 • ICAの動作原理を図解（直観的な理解のため） – 1. 2つの観測信号（混合信号）を白色化する • 白色化は観測信号の分散共分散行列が単位行列となるように変換する • 白色化の変換行列をとすると，白色化後の信号は • の分散共分散行列が単位行列になるようなを求める – の固有値分解としてとすると白色化行列混合後の観測信号白色化後の観測信号無相関かつ分散が両信号とも1 81

82.

ICAの音源分離の原理 • ICAの動作原理を図解（直観的な理解のため） – 2. 2つの白色化した信号のカートシスが最大（非ガウス性が最大）となるような回転行列を探す • 白色化された観測信号が互いに独立になるように回転する • 2次元における回転行列は但しは反時計回りを正とする • 独立になるように回転＝ばってんが十字になる角度で回転両信号のカートシス回転後の分離信号が最大となる角度, すなわち両信号が最も非ガウスになる角度を見つける！ – そのような角度をどうやって求めるのか？白色化後の観測信号 82

83.

ICAの音源分離の原理 • ICAの動作原理を図解（直観的な理解のため） – 2. 2つの白色化した信号のカートシスが最大（非ガウス性が最大）となるような回転行列を探す • 白色化された観測信号が互いに独立になるように回転する • 1度回転毎に両信号のカートシスをプロットすると（のカートシス）＋（のカートシス）白色化後の観測信号 90° 180° 0° のカートシスのカートシス回転変換 270° 338° 83

84.

ICAの音源分離の原理 • ICAの動作原理を図解（直観的な理解のため） – 2. 2つの白色化した信号のカートシスが最大（非ガウス性が最大）となるような回転行列を探す • 白色化された観測信号が互いに独立になるように回転する • 回転行列をとすると白色化後の観測信号回転後の分離信号但し，分離信号とスケールは適当に決めている 84

85.

ICAの音源分離の原理 • ICAの動作原理を図解（直観的な理解のため） – 2. 2つの白色化した信号のカートシスが最大（非ガウス性が最大）となるような回転行列を探す • 白色化された観測信号が互いに独立になるように回転する • 回転行列をとすると白色化後の観測信号回転後の分離信号但し，分離信号とスケールは適当に決めている 85

86.

ICAの音源分離の原理 • 先の例は事前に白色化（無相関化＋分散の正規化）を施し，ICAを回転行列を求める問題に落とし込んでいる – 元々推定したかったのは混合された観測信号を分離する分離行列と分離信号 – 「独立化」という変換を「白色化＋座標回転」という問題に落とし込み，求めるべき変換行列（分離行列）を回転行列に限定 • 白色化はデータのみに依存するため，何の基準も無しにできる • 推定パラメータを削減（の4つあったパラメータがのみ1つに） • 但し回転行列になるのは2次元の場合を満たす行列 • 一般的な次元の場合はユニタリ行列に限定されることに対応している – 回転角を求める最適化を解くこともできるが，問題が限定的なので本講演では割愛 86

87.

ICAの音源分離の原理 • より一般的なICAの解法として，分離信号間の独立性を最大化するを直接勾配法で求める最適化法を紹介 • 解くべき問題は「分離信号間の独立性の最大化」 – 現在の状態と独立になった状態の距離を近づける分離信号の結合分布近づける独立信号の結合分布 – 確率分布間の距離＝カルバック・ライブラ（KL）ダイバージェンス – 上記の2状態の距離を最小化する分離行列を推定する 87

88.

ICAの音源分離の原理 • 独立性をKLダイバージェンスで測る目的関数は下記のように展開できる結合エントロピー周辺エントロピーの和結合エントロピー結合エントロピーの最大化 →分離信号間の関連をなくす →白色化（無相関化）に対応周辺エントロピー周辺エントロピーの和を最大化 →個々の分離信号を非ガウス化 →カートシスの和の最大化に対応 88

89.

ICAの音源分離の原理 • 目的関数を最小化する分離行列 – 目的関数をは勾配法で推定で偏微分して勾配を求め少しずつ下っていく勾配: 勾配を下る更新: 勾配法による最適化のイメージ目的関数非線形関数の意味混合前の独立成分の分布を確率変数に関して微分した関数神のみぞ知る分布であるし，混合前の信号は通常手に入らないので決めようがないしかし実用上は「カートシスがガウス分布より高いか低いか」で決めて良く，ICAは十分動く音声のようにカートシスの高い信号には Sigmoid関数や双曲線正接関数が用いられる 89

90.

ICAによる音源分離まとめ • 混合系（空間的な物理モデル）が未知の状態でも分離系を推定できる – 「各音源が非ガウスである」という統計的音源モデルを活用 • 音源間の独立性最大化という最適化問題 – 最急降下法，自然勾配法，補助関数法が最適化アルゴリズムとして活用される • 音響信号をICAで分離する場合 – 残響による畳み込み混合を解くために，ICAは周波数領域の各信号に適用される – 周波数領域ICAは「パーミュテーション問題」を引き起こす • 各周波数ビンにおいて分離信号の順番が決まらないため，100 Hzの信号ではy1が音源1，y2が音源2として推定されるたのに，200 Hzの信号では y1が音源2，y2が音源1として推定されてしまう現象 • 全周波数帯域で分離信号の順番を整えるアラインメントが必要 90

91.

耐残響性の向上：周波数領域ICA（FDICA） • 実際の音響信号の混合 – 残響による畳み込み混合 • 例: 会議室では300ミリ秒，コンサートホールでは2秒等畳み込み混合残響長瞬時混合（混合フィルタのタップ長） – 時不変混合係数が時不変混合フィルタに変化 • 対残響性の向上 – 時間領域での逆フィルタを推定 • 16 kHzサンプルでは300 msのフィルタ長が4800タップ（1音源あたり） • ICAで推定すべきパラメータが爆発的に増加→推定は困難 – 周波数領域でのICAの適用 • 周波数毎の分離行列を周波数毎のICAで推定→推定は容易 • パーミュテーション問題に直面 91

92.

耐残響性の向上：周波数領域ICA（FDICA） • 周波数領域ICA（FDICA） … 周波数領域の時不変瞬時混合行列 … … Frequency bin – 各周波数ビンの複素時系列に対して独立なICAを適用スペクトログラム ICA1 ICA2 ICA3 ICA Time frame 逆行列 92

93.

耐残響性の向上：周波数領域ICA（FDICA） • FDICAにおけるパーミュテーション問題 – 各周波数ビンで推定信号の順序がバラバラになる – 様々なパーミュテーションソルバが検討されている分離信号1 音源1 観測1 ICA Time 音源2 Permutation Solver 分離信号2 観測2 全て時間周波数領域の信号 ※分散（スケール）もバラバラになるが，これは容易に戻すことが可能 93

94.

到来方向を用いたパーミュテーション解決 • FDICA＋DOAクラスタリング – 推定分離フィルタから混合フィルタを逆算 – 音源の到来方向（DOA）でクラスタリング音源とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル正面右 DOA クラスタリング左正面到来方向（DOA）右推定された音源成分の頻度推定された音源成分の頻度左 Source 1 Source 2 左正面右到来方向（DOA） 94

95.

FDICAによる音源分離のメカニズム • FDICAで推定される分離フィルタとは？ – 周波数領域での瞬時混合を仮定 – 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ空間分離フィルタ音源1 音源1の空間分離フィルタ音源1 音源2 分離フィルタのタップ長はフーリエ変換の窓長と同じ – 適応ビームフォーミング（ABF）と本質的に等価 • ABF：妨害音のみがアクティブな時間の出力二乗誤差最小化 • 妨害音に対してヌル（感度0）を打つような空間分離 • ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要 – FDICAはブラインドな音源分離手法 • 混合系未知，アクティビティ検出不要 • 厳密な音源位置とマイク位置が既知の場合のビームフォーミングが FDICAの上限性能といえる 95

96.

FDICAの分離フィルタとABFの分離フィルタ BSSの空間分離フィルタ TR = 0 ms TR = 300 ms TR = 0 ms TR = 300 ms ABFの空間分離フィルタ 96

97.

独立ベクトル分析（IVA） • よりエレガントなアプローチ – 分離フィルタ推定（周波数毎のICAの最適化） 1個の問題の – パーミュテーション問題の解決（ポスト処理）最適化で実現したい • 独立ベクトル分析（IVA）スカラー – ICAを多変量（多次元）分布モデルへ拡張（ – 周波数をまとめたベクトル変数に対するICA 多変量非ガウス分布混合行列観測信号ベクトル分離行列）推定信号互いに独立 … … … … … 互いに高次相関を持つ同じ音源が一つの推定信号に自然にまとまる 97

98.

IVAにおける音源分布と高次相関 • FDICAとIVAの違いは非ガウス音源分布のみ – 音源の事前分布が一変量か多変量か • IVAの仮定する音源の事前分布 – 零平均ラプラス分布の例（音声信号のモデルとして一般的）周波数毎に独立な事前分布周波数間で高次相関をもつ事前分布分散共分散行列 – 後者は（互いに無相関）の場合でも， • 球対称な分布を仮定していることに起因 • 高次相関性，高次依存性が生じるのときが互いに依存ベクトルノルムにのみ依存 98

99.

IVAにおける音源分布と高次相関互いに独立な二変数ラプラス分布 x1とx2は互いに独立なラプラス分布（条件付き分布はラプラス分布）球対称な二変数ラプラス分布 x1とx2は互いに無相関だが依存関係がある • 球対称音源分布の（かなりざっくりとした）定性的な説明 – 周波数間で同じ時間変動を持つ成分を一つの音源としてまとめる傾向にあるパーミュテーション問題の回避 99

100.

FDICAとIVAの分離原理比較 • FDICAの分離原理推定信号 STFT 分離フィルタ推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを更新 Time Frequency 観測信号 Frequency 中心極限定理より，混合信号本来の音源信号ははガウス分布に近い信号非ガウス分布に従うスカラーの確率変数推定信号の現在の分布形状非ガウスな音源分布互いに独立 Time • IVAの分離原理 Frequency 推定信号分離フィルタ STFT 推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィルタを更新 Time Frequency 観測信号ベクトルの多変量確率変数非ガウスな球対称多変量推定信号の音源分布現在の分布形状互いに独立 Time 100

101.

FDICA及びIVAの音源モデル拡張の動機 • ICAで仮定される非ガウスな音源分布 – 分離フィルタを推定する唯一の手がかり：音源モデル – より正確な音源分布 → 高精度な分離フィルタの推定 – 確率分布というマクロなモデル • 音源信号の持つ時間周波数の構造は考慮できない – 音楽信号では音源間の独立性が弱まる • 時間的な共起（リズム），周波数の重なり（ハーモニー）等 • 時間周波数構造を分散の変動として表現したISNMF – 従来手法よりも正確な音源分布としてICAの推定に用いたい – ICAの高速・安定な最適化も受け継ぎたい • 多チャネルNMFの最適化はあまりにも非効率・不安定 • 時変分散複素ガウスIVA（時変IVA） • 独立低ランク行列分析（ILRMA） 101

102.

様々な非ガウス分布を仮定したIVA • 球対称ラプラス分布IVA（再掲） – 定常な球対称ラプラス分布を仮定ラプラスIVA 非ガウス分布（球対称ラプラス分布）分散 • 時変分散複素ガウス分布IVA – 分散が時変なパラメトリックな複素ガウス分布を仮定 – 時間方向の音源アクティビティを時変分散でモデル化複素ガウス分布時変IVA 非ガウス分布時変分散 102

103.

Frequency 時変IVAの音源モデル Frequency 「低ランク性」の音源モデルへの導入 Time 濃淡が分散の大小分散の大小は音源のパワーの大小 Time 時変な成分周波数方向には一様な分散 Basis Frequency ILRMAの音源モデル Frequency 時間周波数上での分散の変動を ISNMFで低ランク表現 Time Time Basis 基底数（音源モデルのランク数）は任意 103

104.

IVAとNMFを融合した新しいBSS: ILRMA イルマ • 独立低ランク行列分析（independent low-rank matrix analysis: ILRMA） – 時間周波数で分散が変動する複素ガウス分布を仮定複素ガウス分布時間周波数変動分散（低ランク音源モデル）非ガウス分布 Basis Frequency 提案手法の音源モデル Frequency – 分離音源が「互いに独立」かつ「できるだけ低ランク」になる Time Time Basis 基底数（音源モデルのランク数）は任意 104

105.

IVAとNMFを融合した新しいBSS: ILRMA • FDICA，IVA，及びILRMAの比較 FDICAの音源モデルスカラー変数の非ガウス分布（ラプラス分布）ラプラスIVAの音源モデル NMFによる低ランクな時間周波数構造（時間周波数分散変動型複素ガウス分布）観測信号推定信号分離フィルタ Frequency ILRMAの音源モデル Frequency ベクトル変数の多変量な球対称非ガウス分布（多変量ラプラス分布） Time Time 低ランクな時間周波数構造を持つように分離フィルタを更新 105

106.

独立成分分析に基づく音源分離の歴史と発展（再掲） • 基礎理論とその拡張手法 1994 独立成分分析（ICA） 1998 周波数領域ICA（FDICA） Age 1999 2006 パーミュテーション問題解決法の検討独立ベクトル分析（IVA） 2011 補助関数IVA（AuxIVA） 2012 時変複素ガウスIVA 2016 非負値行列因子分解（NMF） NMFの様々な問題への適用生成モデル的解釈の発見各種拡張手法板倉斎藤擬距離NMF（ISNMF） 2009 2013 代表的なもののみ記述多チャネルNMF 独立低ランク行列分析（ILRMA） 106

107.

ILRMAのコスト関数と潜在変数の導入 • ILRMAのコスト（対数尤度）関数 IVAのコスト関数（空間分離フィルタの推定に寄与） – IVAの反復更新式 – NMFの反復更新式分離信号： ISNMFのコスト関数（音源モデルの推定に寄与） 2つの交互最適化反復で全変数を容易に推定可能 • 音源の適切なランク数を潜在変数で推定することも可能潜在変数の導入 0~1の値をとる潜在変数 – Ex. ボーカルはあまり低ランクにならず，ドラムは低ランク 107

108.

ILRMAの最適化 • ILRMAの反復更新式（最尤推定） – NMF変数の最適化は補助関数法に基づく乗法更新式空間分離フィルタと分離信号の更新音源モデルの更新但し， , は番目の要素のみ1で他は0の縦ベクトル – 反復で尤度が単調増加することが保証されている • 必ずどこかの局所解（停留点）へ収束 108

109.

ILRMAの更新のイメージ • 音源毎の空間情報（空間モデル）と各音源の音色構造（音源モデル）を交互に学習音源モデル音源モデルの学習空間分離フィルタの学習 NMF の更新 NMF 混合信号分離信号 – 音源毎の時間周波数構造を正確に捉えることで，独立性基準での線形時不変な空間分離の性能向上が期待できる 109

110.

IVA，多チャネルNMF，ILRMAの関連性 • 多チャネルNMFからみると – ランク1空間制約，逆システム（分離系）の推定問題に変換 – 決定条件（マイク数＝音源数）ではILRMAと双対な問題 • 時変IVAからみると – 音源分布の基底数を1本から任意の本数に拡張空間モデル柔軟限定的 • 独立に発展した多チャネルNMFとIVAを統一的に捉える新しい理論多チャネル NMF 空間相関行列のランクを1に制限 IVA NMFの音源モデルを導入限定的音源モデル ILRMA 柔軟 110

111.

尤度関数の比較 • ラプラス分布IVA（オリジナル） • 時変ガウス分布IVA • 多チャネルNMF • ILRMA 時間周波数変動分散（低ランク音源モデル） 111

112.

概要 • 音源分離の目的と応用 – どんな技術？何に使える？今どこまでできる？ – 関連する音響信号処理技術の紹介 • 代表的な音源分離技術の俯瞰 – 単一チャネルと劣決定と優決定，教師情報の有無，用いる仮定 • 1. 非負値行列因子分解（音源モデル化） – 数理・最適化理論，教師ありNMF • 2. ビームフォーミング（空間のモデル化） – 遅延和法，ヌルビームフォーマ，MVDRビームフォーマ • 3. 独立成分分析（音源と空間のモデル化） – 周波数領域ICA，パーミュテーションソルバ，独立ベクトル分析 • まとめ 112

113.

まとめ • 音源分離 – – – – 混ざった音から混ざる前の音を推定する技術観測信号のチャネル数，音源数，仮定等に応じて様々あらゆるモデル（仮定）を駆使して解く全ての音信号を対象とした応用に活用できる重要な技術 • 音源モデル – 音源の時間周波数構造の仮定（低ランク，スパース等） • 空間モデル – 物理的な音波の到来を仮定して数式で記述 113

音源分離における音響モデリング（Acoustic modeling in audio source separation）

Daichi Kitamura

関連スライド

音源分離技術の基礎と応用～音源分離ﾁｮｯﾄﾜｶﾙになるための手引き～

Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法（Jupyter notebookも）

独立低ランク行列分析に基づく音源分離とその発展（Audio source separation based on independent low-rank matrix analysis and its extensions）

独立低ランク行列分析に基づくブラインド音源分離（Blind source separation based on independent low-rank matrix analysis）

音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sound media signal processing and its applications

独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

各ページのテキスト