47.4K Views
September 09, 17
スライド概要
北村大地, "音源分離における音響モデリング," 日本音響学会 サマーセミナー 招待講演, September 11th, 2017.
Daichi Kitamura, "Acoustic modeling in audio source separation," The Acoustical Society of Japan, Summer Seminar Invited Talk, September 11th, 2017.
http://d-kitamura.net/links_en.html
日本音響学会サマーセミナー@白馬 2017年9月11日(月)10:30-12:00 音源分離における音響モデリング Acoustic modeling in audio source separation 東京大学大学院情報理工学系研究科 特任助教 北村大地
今日のスライド SlideShareで 「Daichi Kitamura」と 検索 該当アカウントの スライド一覧にあり〼 Tips SlideShareのアカウント 持っている方は パワポ形式でダウンロー ド可能 (音や動画が再生可) 2
自己紹介 • 名前: 北村大地(Daichi Kitamura) • 年齢: 27(1990年3月11日生まれ) • 経歴: 香川高等専門学校(旧高松工業高等専門学校)(16 ~ 22) 電気情報工学科→専攻科(創造工学専攻), 学士(工学) 奈良先端科学技術大学院大学(22 ~ 24) 情報科学研究科, 修士(工学) 総合研究大学院大学(24 ~ 27) 複合科学研究科(情報学専攻),博士(情報学) • Twitter: @UDN48_udon サバゲー 3
概要 • 音源分離の目的と応用 – どんな技術?何に使える?今どこまでできる? – 関連する音響信号処理技術の紹介 • 代表的な音源分離技術の俯瞰 – 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定 • 1. 非負値行列因子分解(音源モデル化) – 数理・最適化理論,教師ありNMF • 2. ビームフォーミング(空間のモデル化) – 遅延和法,ヌルビームフォーマ,MVDRビームフォーマ • 3. 独立成分分析(音源と空間のモデル化) – 周波数領域ICA,パーミュテーションソルバ,独立ベクトル分析 • まとめ 4
教科書の紹介(本日の内容をほぼ網羅する本) • 「音のアレイ信号処理」 – 日本音響学会編 浅野太著 コロナ社 – アレイ信号処理の基礎と各技術で用いられる推定理論の 数学的準備をしっかり解説したうえで,ビームフォーマ(音 源分離),部分空間報(音源定位),音源追跡,ブラインド 音源分離を網羅的に解説 • 「詳解 独立成分分析」 – アーポ・ヒバリネン他 東京電機大学出版局 – ブラインド音源分離の基礎理論である独立成分分析(ICA) について詳しく学びたい場合はこちら,統計的信号処理で 用いられる確率統計の基礎も詳しく解説されている • 「Nonnegative Matrix and Tensor Factorizations」 – アンジェイ・チホッキ他 WILEY – 非負値行列因子分解(NMF)の定式化,距離規範,各種 拡張,様々な最適化理論が紹介されているが求められる 知識レベルは若干高い,うれしいMATLABコード付き 5
概要 • 音源分離の目的と応用 – どんな技術?何に使える?今どこまでできる? – 関連する音響信号処理技術の紹介 • 代表的な音源分離技術の俯瞰 – 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定 • 1. 非負値行列因子分解(音源モデル化) – 数理・最適化理論,教師ありNMF • 2. ビームフォーミング(空間のモデル化) – 遅延和法,ヌルビームフォーマ,MVDRビームフォーマ • 3. 独立成分分析(音源と空間のモデル化) – 周波数領域ICA,パーミュテーションソルバ,独立ベクトル分析 • まとめ 6
音源分離はどんな技術? • 音源分離(audio source separation) – 音響メディアを対象とした信号処理技術の一つ – 音声,ボーカル,楽器音,雑音,複数話者等を「分離」する – 人間の持つカクテルパーティ効果を機械で実現:機械の耳 7
音源分離はどんな技術? • 音楽音源分離(東京大学猿渡研究室,独立低ランク行列分析) ボーカル 音源分離 キーボード ギター ボーカル キーボード 3つの音源があるこ とに注意して聞いて 下さい ギター 8
音源分離はどんな技術? • 観測信号から「意味のある何か」を推定・抽出する技術 – 混ざっている各音源信号は「有意な潜在因子」 – 例:背景雑音のひどい信号から音声を推定 – 知能情報学・機械学習分野の一大トピック • 機械にどうやって「音を理解」させるかという問題提起 – CASA: computational auditory scene analysis • 「機械の耳」 – 音源分離はあらゆる音理解において必要な最初の信号処理 • いかなるシステムにおいても「雑音は直ちに抑圧されるべき」 • まずは分離,その後になにかしましょう – 音環境認識,音声認識,音楽理解,音の検知・追跡,… 9
音源分離は何に使える? • 音源分離の応用先(ただし一例) – 補聴器(hearing aid) • うるさい環境での聞きやすさを改善,健常者さえ対象 – 音声認識(automatic speech recognition: ASR) • Siri, Google検索, コルタナ, Amazon Echo, … – 自動採譜(automatic music transcription) • 楽器ごとに楽譜を作成 (Vo., Gt., Ba., …) CD 分離 自動採譜 楽譜 – 生録音された(たった一度きりの)ライブ音源の再編集 • プロ用のもの(音質改善),個人が楽しむもの (DJのリミックス), … 10
音源分離は今どこまでできる? • 全然できていません!が,下記は実デバイスで稼働している一例 – スマホ等の複数マイクでの音源分離(音声強調・音声認識) • 使われているのはほとんどMVDRビームフォーマ – イヤホンのノイズキャンセリング機能(雑音抑圧) • アクティブノイズコントロールと呼ばれる「適応フィルタ」の一つ – オーディオ機器の機能のボーカルキャンセラ(音楽再編集) • 位相反転によるキャンセルアウト(音源分離とは言い難い原始的手法) • 何ができていない? – ものすごくうるさい居酒屋でのストレスフリーな会話 • 眼鏡と同じくらい補聴器が普及するか – 品質を損なわないプロ用途に耐える音楽の超精密な分離 • 70人のオーケストラ演奏から「この人のヴァイオリン」が分離できるか – 音響バーチャルリアリティ • 画像と違ってオクルージョンが起こらない音メディアはまず分離が必須 11
音源分離と切っても切れないご近所トピック • 残響除去(dereverberation) – 長い残響の含まれる信号から残響成分を除去して聞きやすく • 例:駅や空港のアナウンス – キーワード:逆フィルタ推定,(多チャネル)線形予測 • 音源定位・追跡(source localization, source tracking) – 停止している音源や動いている音源の空間的な位置を推定 • 例:コウモリのエコーロケーション – 音源分離をやるか音源定位をやるか たまごが先か にわとりが先か • 位置が分かれば音源分離は容易 • 音源分離できれば音源定位は容易 – キーワード • 音源定位:部分空間法(MUSIC法) • 音源追跡:カルマンフィルタ,パーティクルフィルタ 12
概要 • 音源分離の目的と応用 – どんな技術?何に使える?今どこまでできる? – 関連する音響信号処理技術の紹介 • 代表的な音源分離技術の俯瞰 – 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定 • 1. 非負値行列因子分解(音源モデル化) – 数理・最適化理論,教師ありNMF • 2. ビームフォーミング(空間のモデル化) – 遅延和法,ヌルビームフォーマ,MVDRビームフォーマ • 3. 独立成分分析(音源と空間のモデル化) – 周波数領域ICA,パーミュテーションソルバ,独立ベクトル分析 • まとめ 13
音源分離技術俯瞰:観測条件 • 得られる音響信号のチャネル数による条件の違い – 単一チャネル信号(モノラル信号) • 音源分離には最も困難な録音条件 – しかし最も手軽な録音方法 • 音色に関する情報しか得られない – 劣決定条件(音源数 1ch モノラル録音 モノラル信号(1-ch) マイク数) • 2チャネル(ステレオ)等だが混合されて いる音源の方がチャネルよりも多い • 単一チャネルでは得られなかった空間 的な情報が得られる L-ch R-ch 音楽CD ステレオ信号(2-ch) – 各マイクで観測した信号間の振幅差と位相差 – 優決定条件(音源数 マイク数) 1ch 2ch – 録音はマイクの同期が大変,ケーブルの山! • 得られる空間的な情報の量も多い … … • 十分な数のマイクがある Mch マイクアレイ 多チャネル信号 – 空間情報を使う音源分離は高性能になる 14
音源分離技術俯瞰:前提条件 • 事前に用意できる外部からのヒント(教師情報)の有無 – 何もヒントがないブラインド音源分離 • 単一チャネルでは何らかの仮定の下でのクラスタリング問題 • 劣決定条件では時間周波数マスキング • 優決定条件では独立成分分析 – マイクや音源の位置(空間情報)が分かる • マイクアレイを使うならばマイクの配置(間隔等)は分かるはず • 多チャネルの観測条件ではビームフォーマ – 音色のサンプルがある • 単一チャネルではクラスタリング問題を解くためのヒントになる • 教師あり非負値行列因子分解(サンプルが少ない場合) • ディープニューラルネットワーク(サンプルが大量にある場合) – その他の活用できるヒントがある • 定常雑音仮定,楽譜情報,ユーザアノテーション,カメラ等のセンサ,… 15
音源分離技術俯瞰:問題解決のためのモデル化 • 何をモデル化するか – 音源の音色構造をモデル化(音源モデル) • 例:非負値行列因子分解,時間周波数マスキング, – 空間的な伝達系をモデル化(空間モデル) • 例:ビームフォーマ,方位クラスタリング • どのようにモデル化して解くか(cf. 前半の矢田部浩平先生の資料) – 統計モデル 最尤推定,ベイズ推定等 • 時間周波数領域での統計的な性質を仮定,生成モデル • 例:非負値行列因子分解,独立成分分析 – 物理モデル 最急降下法,ニュートン法等 • 音波の空間伝達の物理現象を仮定(平面波仮定等) • 例:ビームフォーマ – 回路モデル 誤差逆伝搬,確率的勾配法等 • 次元圧縮による特徴量抽出,音源成分毎にクラスタリング • 例:ディープニューラルネットワーク 16
音源分離技術俯瞰:できるだけカテゴライズ • チャネル数と教師情報の有無でカテゴリを分類 – 記載手法はごく一部(しかし有名なもの) • 数多の拡張・応用がある – 今日は赤文字の部分を簡単に解説します 条件 単一 チャネル ブラインド 教師あり スペクトル情報の教師あり 時間周波数マスキング NMF+スペクトル分類 (モノラル信号) 音色的な情報 時間的な情報 音源位置 音響的な伝達系 教師ありNMF Denoising autoencoder Informed NMF 無し 無し (モノラル信号の為) (モノラル信号の為) スペクトル情報の教師あり 劣決定 (チャネル数< 音源数) スパースコーディング 時間周波数マスキング 方位クラスタリング 多チャネルNMF (チャネル数≧ 音源数) ICA 周波数領域ICA 独立ベクトル分析(IVA) 空間情報の教師あり 音色的な情報 時間的な情報 音源位置 音響的な伝達系 多チャネル深層学習 教師あり多チャネル NMF User-guidedな 多チャネルNMF 時間周波数マスキング 空間辞書ベースの スパースモデリング スペクトル情報の教師あり 優決定 空間情報の教師あり 空間情報の教師あり 音色的な情報 時間的な情報 音源位置 音響的な伝達系 多チャネル深層学習 User-guided IVA 固定・適応ビーム フォーマ ロバスト適応ビーム フォーマ 17
概要 • 音源分離の目的と応用 – どんな技術?何に使える?今どこまでできる? – 関連する音響信号処理技術の紹介 • 代表的な音源分離技術の俯瞰 – 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定 • 1. 非負値行列因子分解(音源モデル化) – 数理・最適化理論,教師ありNMF • 2. ビームフォーミング(空間のモデル化) – 遅延和法,ヌルビームフォーマ,MVDRビームフォーマ • 3. 独立成分分析(音源と空間のモデル化) – 周波数領域ICA,パーミュテーションソルバ,独立ベクトル分析 • まとめ 18
音響信号の時間周波数表現 • 時間的に変化する音色(スペクトル)を表現したい – 短時間フーリエ変換(Short-time Fourier transform: STFT) 時間領域 時間周波数領域 … フーリエ変換 窓関数 シフト長 フーリエ変換長 フーリエ変換 フーリエ変換 周波数 時間波形 … 時間 スペクトログラム 複素数要素を持つ行列 要素毎の 絶対値と二乗 パワースペクトログラム 非負(ゼロ以上)の実数要素の行列 19
音声のパワースペクトログラム 20
音楽のパワースペクトログラム 21
特徴的な構造 • スパース(音声も音楽も) – パワーの強い成分(黄色の部分)は全体のほんの一部 – パワーの弱い成分(暗い青色部分)が支配的 • 連続的な軌跡(音声やボーカルのみ) – スペクトルは連続的にダイナミックに変動する • 低ランク(特に音楽) – 同じスペクトルのパターンの繰り返しが多い Speech Music 22
低ランク性の比較 ドラム ギター ボーカル 音声 23
低ランク性の比較 • 低ランク性の指標(行列の構造のシンプルさ) – 累積特異値(cumulative singular value)で確認できる • 行列を特異値分解して得られる特異値を大きい順に並べたときの累積 95% line 7 29 Around 90 累積特異値が95%に達するときの 基底の本数 (スペクトログラムのサイズは1025x1883) 「スペクトログラムが低ランク」という構造を モデルとして仮定して音源分離ができる 24
低ランク構造のモデリング手法 • 非負値行列因子分解(nonnegative matrix factorization: NMF) – 非負制約付きの任意基底数( 本)による低ランク近似 • 限られた数の非負基底ベクトルとそれらの非負係数を抽出 – STFTで得られるパワースペクトログラムに適用 • 頻出するスペクトルパターンとそれらの時間的な強度変化 Time 基底 Amplitude 基底行列 アクティベーション行列 (スペクトルパターン) (時間的強度変化) Frequency Frequency 混合された観測行列 (パワースペクトログラム) アクティベーション Time Amplitude : 周波数ビン数 : 時間フレーム数 : 基底数 25
NMFのパラメータ推定 • NMFにおける変数の最適化 – 観測 とモデル の距離をコストとし変数について最小化 – 距離関数は任意 • 二乗ユークリッド距離,KLダイバージェンス,板倉斎藤擬距離,・・・ – いずれの距離関数でも閉形式の解は未発見 – 効率的な反復更新による最適化アルゴリズム • 補助関数法に基づく乗算型更新式(最も有名) (コスト関数が二乗ユークリッド距離 の時の更新式) 26
NMFによる低ランク近似と音源分離の例 • 例 Pf. and Cl. ランク1の スペクトログラムの和 27
NMFによる低ランク近似と音源分離の例 • 例 Pf. and Cl. Pf. Cl. – Pf. と Cl. が分離された! – 実際は30本等の基底で混合信号を分解 • どの基底がPf.でどの基底がCl.かを推定しなければならない • NMF音源分離は「複数の基底を音源ごとにクラスタリングする問題」 • ブラインドでは難しい・・・(挑戦例もあり) 28
教師ありNMFによる音源分離 • もし音源毎の学習(サンプル)データが用意できる場合 • 教師ありNMF(supervised NMF) 学習ステージ Pf.の音色 (スペクトル) の辞書 Other bases 分離ステージ , , のみ最適化 学習ステージで得られる辞書 29
教師ありNMFによる音源分離例 • デモンストレーション – 方位クラスタリングと教師ありNMFのハイブリッド音源分離 ピアノの 学習データ 原曲(混合音) 分離された ピアノ音源 ベースの 学習データ 分離された ベース音源 30
教師ありNMFによる音源分離の問題 • 学習データの音色が分離したい音源の音色と異なる場合 – スペクトルが異なるため音源分離の性能は大きく劣化 – 完璧な学習データを用意することは通常不可能 目的音源 別のピアノ 混合信号 (本物のPf.とTb.) 若干異なる 学習データ Amplitude [dB] 混合信号 Real sound Artificial sound by MIDI 60 40 人工Pf.を学習データ に用いた教師あり NMFの結果 20 0 -20 0.0 教師あり NMF 0.5 1.0 1.5 2.0 Frequency [kHz] 2.5 3.0 音色の違いの例(人工ピアノと実ピアノ) 31
基底変形型教師ありNMFによる音源分離 • 基底変形型教師ありNMF – 学習した基底 に対して というスペクトル変形項を導入 学習ステージ 若干 異なる 分離ステージ 正負の値をとるスペクトル変形項 学習ステージで得られる辞書 32
基底変形型教師ありNMFによる音源分離 • スペクトルの変形範囲を制約 – スペクトルは変形するが近い音色を表す – 別の楽器の音に変形されることを防ぐ の場合 ±30% Frequency Frequency 混合信号 (本物のPf.とTb.) 教師あり NMF 基底変形型教師あり NMF 分離信号 分離信号 学習データは同じ (人工Pf.音) 33
基底変形型教師ありNMFによる音源分離例 • デモンストレーション – 実際の楽器の演奏録音を人工的な学習データ(シンセサイ ザーで作成)で分離 Sax.の学習データ (MIDIシンセで作成) Sax.の分離信号 残りの信号(カラオケ) 原曲 (実際の楽器音) Ba.の学習データ (MIDIシンセで作成) Ba.の分離信号 残りの信号(カラオケ) 本楽曲の著作権はヤマハ株式会社が保有しております。無断で複製、頒布を行なう と著作権法違反となりますので、ご注意くださいますようお願い申し上げます。 Copyright © 2014 Yamaha Corporation. All rights reserved. 34
音源のモデル化による音源分離まとめ • スペクトログラムの低ランク性に基づく音源分離を紹介 – NMFを活用する手法が代表的 • スペクトログラムのモデル化いろいろ 時間 NMF ロバストPCA グループスパース モデル自動学習 周波数 スパース 周波数 周波数 低ランク 時間 時間 時間周波数マスキング 調波打楽器音分離 ロバストPCA (HPSS) Denoising autoencoder ディープクラスタリング • 音源のモデル化に成功すれば単一チャネルでも分離可 – 多チャネル観測信号の「空間的な情報」に頼らないため • 音源と空間の両方をモデル化する手法もある – 独立成分分析,独立ベクトル分析,独立低ランク行列分析 35
概要 • 音源分離の目的と応用 – どんな技術?何に使える?今どこまでできる? – 関連する音響信号処理技術の紹介 • 代表的な音源分離技術の俯瞰 – 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定 • 1. 非負値行列因子分解(音源モデル化) – 数理・最適化理論,教師ありNMF • 2. ビームフォーミング(空間のモデル化) – 遅延和法,ヌルビームフォーマ,MVDRビームフォーマ • 3. 独立成分分析(音源と空間のモデル化) – 周波数領域ICA,パーミュテーションソルバ,独立ベクトル分析 • まとめ 36
マイクロホンアレイと多チャネル観測信号 • マイクロホンアレイ(microphone array) – 複数のマイクロホンを並べた録音機器 – 全マイクは同期状態で録音する(一つのAD変換器で処理) • 「録音開始時刻やサンプリング周波数にズレが無い」ということが重要 • 「非同期マイクロホンアレイ」を対象とする研究も新しいトピック • 多チャネル観測信号(multichannel signal) – 各マイクの時系列信号の他にマイク間の情報(音量差,音色差, 時間差)が得られる(空間的な情報) – 「マイクアレイから見てどの方向から音波が到来したか」 37
音のアレイ信号処理におけるビームフォーマ • アレイ信号処理(array signal processing) – センサアレイの多チャネル観測信号を対象とする信号処理 – マイクアレイ(音響),アンテナアレイ(無線通信),脳波センサア レイ(生体信号),地震センサアレイ(地震動)等 • ビームフォーマ又はビームフォーミング(beamforming) – アレイ信号処理の基礎 赤字を紹介します – 音源分離・音源定位の両方に応用可 – 固定ビームフォーマ(遅延和法,ヌルビームフォーマ等) • 空間の物理的なモデルのみから構成される空間フィルタ – 適応ビームフォーマ(空間ウィナーフィルタ,MVDR法等) • 観測信号に対して適応的に構成される空間フィルタ – 固定と適応の組み合わせ(一般化サイドローブキャンセラ) – 全て空間的な分離を達成する「フィルタ処理」 38
ビームフォーマの一般型 • 時間領域ではフィルタ出力の和 フィルタ は時間インデクス 畳み込み演算 フィルタ … … フィルタ • 周波数領域では周波数毎の複素線形結合 は周波数インデクス 複素共役 複素係数の掛算 複素係数 複素係数 … … 複素係数 – ベクトル表現では エルミート (複素共役)転置 39
固定ビームフォーマにおける空間的な物理モデル • 音の到達時間差(time difference of arrival: TDOA) – 物理モデル:音速 伝搬してきた 平面波 が一定の平面波(音源が十分遠方) 伝搬距離差に基づく 到達時間差が生じる 0° 伝搬距離差 伝搬距離差 – 観測される信号 ディラックのデルタ関数 時間領域 周波数領域 40
遅延和ビームフォーマによる音源分離 • 遅延和ビームフォーマ(delay-and-sum beamforming) 遅延フィルタ 遅延フィルタ 遅延フィルタ 適切な遅延により波形の位相が揃う – 方向から到来した音は位相が揃った状態で加算 強調 – 他方向から到来した音は位相が揃わず加算 抑圧 – 遅延を与えるフィルタ設計 観測にかかるTDOAは ステアリング ベクトル (後述) このTDOAを 戻すフィルタ 41
なぜ時間領域ではなく周波数領域で議論するか • 時間領域では「時刻ズレ」,周波数領域では「位相ズレ」 時間領域 周波数領域 • 時刻ズレはどの程度補償できる? – サンプル周波数:16 kHz,音速:340 m/s,マイク間隔:20 cm, 音源の到来方向:30°の場合 到達時間差 (TDOA) 1サンプル の時間間隔 s s – TDOAはサンプリング間隔よりも短いので補償できない • 周波数領域での位相ズレを補償するフィルタを設計する 42
遅延和ビームフォーマの周波数特性 • より正確な遅延和ビームフォーマの記述 各マイクで観測される 音量の違いを考慮すると • 遅延和ビームフォーマは強調したい音源の方向 が分か れば設計可能 – ステアリングベクトルは で与えられ, TDOA は物理モデルから計算できるため • マイクロホンアレイの形状(マイクロホン数 とマイクロ ホン間隔 )に依存してフィルタの周波数特性(指向性) が決まる – 「空間エイリアシング」が原因 – より多くのマイクロホン,より高密度のマイクロホン間隔の方が 空間的な分離性能が良い 43
遅延和ビームフォーマの指向性例(0°強調) 赤色実線:0.5 kHz 青色破線:1 kHz 緑色破線:2 kHz マイク数11個,アレイサイズ1m,マイク間隔10cm マイク数21個,アレイサイズ2m,マイク間隔10cm 37.5cm マイク数5個,アレイサイズ1m,マイク間隔25cm 12.5cm マイク数5個,アレイサイズ1m,不規則アレイ 44
遅延和ビームフォーマの欠点 • 遅延和ビームフォーマで良い周波数特性を作るために – 低周波帯域で鋭い指向性(サイドローブが小さい) アレイサイズを大きくする – 高周波帯域で空間エイリアシングが起きない マイクロホン間隔を小さくして密に配置する – マイクアレイ及び録音機器の大規模化を招く • 小規模な装置で高性能の空間分離フィルタを作りたい – ヌルビームフォーマ • • • • 原理は遅延和ビームフォーマとほぼ同じ 遅延和ビームフォーマは特定の方位を強調 ヌルビームフォーマは特定の方位を抑圧 空間的な死角(null)を作る空間分離フィルタ 45
ヌルビームフォーマによる音源分離 • ヌルビームフォーマ(null beamforming) 遅延フィルタ 遅延フィルタ 反転 位相をそろえて差し引くことで出力を零にする – 方向から到来した音は位相が揃った状態で減算 抑圧 – 他方向から到来した音は位相が揃わず減算 少し歪む – フィルタ設計は遅延和法と同じ,正負をかえるだけ – マイクロホン数 に対して 個の方位に死角を形成可能 • たった2個のマイクでも特定の方位の音源を(原理的には)消せる 46
ヌルビームフォーマの指向性例(0°抑圧) 赤色実線:0.5 kHz 青色破線:1 kHz 緑色破線:2 kHz マイク数2個,アレイサイズ10cm,マイク間隔10cm マイク数2個,アレイサイズ20cm,マイク間隔20cm • 依然として空間エイリアシングの問題はある – 高周波帯域で目的方位のみにヌルを形成するためにはマイク 間隔を小さくする必要がある • マイクロホンの個体差(感度の違い)の問題 – 実際には感度にばらつきがあるため,上図のような深いヌルを 形成することは困難 47
固定ビームフォーマまとめ • 目的の音源方位が既知の場合 – 音の空間的な伝搬を物理モデルとして仮定した固定ビーム フォーマがよく使われ,単純な原理で信頼性も高い – マイクロホン配置が変わるとフィルタを設計しなおす必要あり • 固定ビームフォーマの欠点 – 物理モデルのみに依存し観測信号を全く使わないため,マイク ロホン個体差や物理モデルの精度に敏感 • 室内音場(残響,反射,回折,気温変化),マイクロホン配置の誤差,マ イクロホン設置機構の干渉(反射,回折),マイクロホン相互の特性誤差 (指向性,周波数特性,感度)等 • 特にヌルビームフォーマではモデル誤差の影響は深刻 • 観測信号を用いた適応的なビームフォーマを考えてゆく – 特に最小分散無歪ビームフォーマ(MVDRビームフォーマ)は 多くの製品で実際に用いられている 48
ステアリングベクトル • マイクロホンアレイで観測される信号を表現 音源 マイク アレイ 観測 信号 伝達係数 ベクトル 観測ベクトル – 伝達係数ベクトル はステアリングベクトル,アレイ・マニュ フォールドベクトル,方向ベクトル,位置ベクトル等と呼ばれる – 音源から各マイクまでの空間的な伝達系(振幅,位相の変化) を複素数の係数で表現する • 前述の遅延和ビームフォーマでは物理モデルからTDOAを計算しステア リングベクトルを記述した 49
MVDRビームフォーマによる音源分離 • 最小分散無歪ビームフォーマ(minimum variance and distortionless response (MVDR) beamforming) – 目的の方位のフィルタ出力(応答)を無歪に制約し,その他の方 位の応答を最小化する空間分離フィルタ – 「観測信号の目的方位以外のパワー」を最小化するため,適応 ビームフォーマの一種 ステアリングベクトルは目的方位とマイクアレイ 形状から物理モデルを用いて計算できる – 目的方位の無歪条件 簡便のため周波数 インデクスは省略 (遅延和ビームフォーマと同じ) – ビームフォーマの応答(平均出力パワー) ,フィルタ 観測のチャネル間相関行列, 空間相関行列等と呼ばれる は時不変なので 50
MVDRビームフォーマによる音源分離 • 最小分散無歪ビームフォーマ(minimum variance and distortionless response (MVDR) beamforming) – 求めるべきMVDRフィルタは – 等式制約条件付き最小化問題なのでラグランジュの未定乗数 法で解ける – 制約が複素数なので実数化するとコスト関数は下記 は複素数の 未定乗数 – で偏微分=0を解く • 複素数の偏微分は「実部と虚部」を独立変数とみなす方法と「複素変数 とその共役」を独立変数とみなす方法があり,後者は簡便になる 51 • cf. ウィルティンガーの微分
MVDRビームフォーマによる音源分離 • 最小分散無歪ビームフォーマ(minimum variance and distortionless response (MVDR) beamforming) – これを拘束条件に代入して 但し (エルミート行列) – よってMVDRビームフォーマのフィルタは 52
MVDRビームフォーマによる音源分離 • MVDRビームフォーマの利点 – 物理モデル と観測信号のチャネル間相関行列 を活用 • 観測信号に対して最適なフィルタを設計可能 • 物理モデルの誤差の影響も最小限に抑えられる – 複数方位の無歪化(複数拘束条件)も容易 • 例えば正面0°だけでなく,その近傍の-5°と5°も無歪化することで強 調したい方位に少し幅を持った空間分離フィルタの設計などが可能 • MVDRビームフォーマの欠点 – 依然として分離したい目的音源の方位が既知 – 固定ビームフォーマよりも改善されているが,物理モデルの誤 差の影響はやはり避けられない • 目的音源方位が分からなくても音源分離できないか? – 空間モデルだけでなく音源モデルも考慮した独立成分分析の 理論へと発展 53
ビームフォーマによる音源分離まとめ • 固定ビームフォーマ – 物理モデルのみに基づくシンプルな空間分離フィルタ – 遅延和ビームフォーマ,ヌルビームフォーマ • 適応ビームフォーマ – 物理モデルと観測信号に基づく空間分離フィルタ – 空間ウィナーフィルタ,最尤推定ビームフォーマ,MVDRビーム フォーマ • 両者の組み合わせビームフォーマ – 一般化サイドローブキャンセラ • いずれにしても空間的な物理モデル誤差の影響は常に 問題となる 54
概要 • 音源分離の目的と応用 – どんな技術?何に使える?今どこまでできる? – 関連する音響信号処理技術の紹介 • 代表的な音源分離技術の俯瞰 – 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定 • 1. 非負値行列因子分解(音源モデル化) – 数理・最適化理論,教師ありNMF • 2. ビームフォーミング(空間のモデル化) – 遅延和法,ヌルビームフォーマ,MVDRビームフォーマ • 3. 独立成分分析(音源と空間のモデル化) – 周波数領域ICA,パーミュテーションソルバ,独立ベクトル分析 • まとめ 55
ブラインド音源分離と独立成分分析 • ブラインド音源分離(blind source separation: BSS) – マイク位置や音源位置等の事前情報を用いずに混合系の逆系 (分離系)を推定する信号処理技術 混合系 分離系 • 話者分離,脳波の分離,画像の分離,電波の分離等 • 独立成分分析(independent component analysis:ICA) – 「音源が非ガウスな分布から生成されている」と「各音源は互い に独立である」という2つの音源モデルに基づき空間分離フィル タを推定する – 実はブラインドな条件のヌルビームフォーマと等価 56
独立成分分析に基づく音源分離の歴史と発展 • 基礎理論とその拡張手法 1994 独立成分分析(ICA) 1998 周波数領域ICA(FDICA) Age 1999 2006 パーミュテーション問題 解決法の検討 独立ベクトル分析(IVA) 2011 補助関数IVA(AuxIVA) 2012 時変複素ガウスIVA 2016 非負値行列因子分解(NMF) NMFの様々な問題への適用 生成モデル的解釈の発見 各種拡張手法 板倉斎藤擬距離NMF(ISNMF) 2009 2013 代表的なもののみ記述 多チャネルNMF 独立低ランク行列分析(ILRMA) 57
IVAとNMFを融合した新しいBSS: ILRMA • FDICA,IVA,及びILRMAの比較 FDICAの音源モデル スカラー変数の非ガウス分布 (ラプラス分布) ラプラスIVAの音源モデル NMFによる低ランクな 時間周波数構造 (時間周波数分散変動型 複素ガウス分布) 観測信号 推定信号 分離 フィルタ Frequency ILRMAの音源モデル Frequency ベクトル変数の多変量な 球対称非ガウス分布 (多変量ラプラス分布) Time Time 低ランクな時間周波数構造を 持つように分離フィルタを更新 58
音源の分布とは? Amplitude • 音声波形の分布 ガウス分布(正規分布) 0.5 Time samples 0.4 0.3 0.2 0.1 Amount of components 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 0付近で急峻であり,裾が広 い分布 ガウス分布(正規分布)とは 全然違う,非ガウス分布 Amplitude 13
音源の分布とは? Amplitude • ピアノ音波形の分布 ラプラス分布 Time samples 0.6 0.5 0.4 0.3 0.2 0.1 0 Amount of components -5 -4 -3 -2 -1 0 1 2 3 4 5 やはりガウス分布より尖っ ていて裾が広い Amplitude 13
音源の分布とは? Amplitude • ドラム音の分布 コーシー分布 1 0.8 Time samples 0.6 0.4 0.2 0 Amount of components -5 -4 -3 -2 -1 0 1 2 3 4 5 やはりガウス分布より尖っ ていて裾が広い Amplitude 13
中心極限定理の検証 • 音源の分布(生成モデル)は多くの場合非ガウスな分布 – しかし混合音しか観測できないので各音源の分布 は不明 • 「非ガウスな分布」としか分からないのに音源モデルとして活用できるか? • 中心極限定理(central limit theorem) – 「いかなる分布から生成される確率変数も足していくとガウス分 布に従う確率変数に近づいてゆく」※ ラプラス分布 一様分布 0.6 0.5 0.4 0.3 0.2 0.1 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 正規分布 0.01 0.5 0.008 0.4 0.006 0.3 0.004 0.2 0.002 0.1 0 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5 Generate r.v.s • 信じられない? ※ただし中心極限定理を満たさない確率分布もある (安定分布と呼ばれる) 62
中心極限定理の検証 • と を独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 – では Amount Amount • それぞれのサイコロを100万回降った結果 という値はどのような分布に従うか? 63
中心極限定理の検証 • と を独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 Amount • それぞれのサイコロを100万回降った結果 – では もはや一様分布ではなくなる はどうか? 64
中心極限定理の検証 • と を独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 Amount Amount • それぞれのサイコロを100万回降った結果 65
中心極限定理の検証 • と を独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 • それぞれのサイコロを100万回降った結果 – どんどんガウス分布に近づいてゆく(中心極限定理) 66
音響信号を用いた中心極限定理の検証 • は , およそ3.3 s Amplitude Amplitude – – 番目の話者の音声信号 Time samples Amount Amount Time samples Amplitude Amplitude 67
音響信号を用いた中心極限定理の検証 – – 番目の話者の音声信号 , およそ3.3 s Amplitude は Time samples Amount • Amplitude 68
音響信号を用いた中心極限定理の検証 • は , およそ3.3 s Amplitude Amplitude – – 番目の話者の音声信号 Time samples Amount Amount Time samples Amplitude Amplitude 69
音響信号を用いた中心極限定理の検証 – – 番目の話者の音声信号 , およそ3.3 s Amplitude は Time samples Amount • Amplitude 70
音響信号を用いた中心極限定理の検証 – – 番目の話者の音声信号 , およそ3.3 s Amplitude は Time samples ほぼ ガウス分布 Amount • Amplitude 71
ICAの音源分離の原理 • 中心極限定理から言えること – ガウス分布は「確率変数の混合の極限」にある – もし各信号の非ガウス性を最大化することができたならば, 混合する前の信号を推定することができる(かもしれない) 混ざることでガウス分布に 近づいてゆく(中心極限定理) 非ガウス性を 最大化すること 非ガウス性を最大化すること で分離されてゆく(ICA) より一般的には 各成分間の独立性 を最大化すること ICAの音源分離の原理 72
ICAの音源分離の原理 • ICAで用いられる仮定 – 1. 混合前の各音源は互いに独立である – 2. 混合前の各音源は非ガウスな分布に従う – 3. 混合系は時不変であり逆系(分離系)が存在する 未知の音源 混合系 1. 互いに独立 2. 非ガウスな分布 観測できる 混合信号 3. 時不変かつ 逆系が存在 逆行列 10
ICAの音源分離の原理 • ICAの不確定性(統計的独立性最大化をしているだけ) – 1. 分離信号のスケール(音量)は決定できない – 2. 分離信号の順番(パーミュテーション)は決定できない 未知の音源 観測できる 混合信号 推定された 分離信号 ICA 未知の音源 観測できる 混合信号 推定された 分離信号 ICA 11
ICAの音源分離の原理 • ICAの動作原理を図解(直観的な理解のため) 75
ICAの音源分離の原理 • ICAの動作原理を図解(直観的な理解のため) 76
ICAの音源分離の原理 • ICAの動作原理を図解(直観的な理解のため) – 混ざる前の2つのソース信号を2軸の散布図にしてみる – 混合前は互いに独立なソース信号なので相関は無く,平面上に 円状に分布(すでに若干楕円なのは音量(分散)が同じでないため) 77
ICAの音源分離の原理 • ICAの動作原理を図解(直観的な理解のため) – 混ざった後の2つの混合信号を2軸の散布図にしてみる – 混合後は独立性が失われ,信号間に相関が生じるので,平面上 に楕円状に分布 78
ICAの音源分離の原理 • ICAの動作原理を図解(直観的な理解のため) – 1. 2つの観測信号(混合信号)を白色化する • Whitening,sphering等と呼ばれ分散共分散を単位行列化する変換 • 主成分分析(PCA)+分散の正規化で実現可能 – 2. 2つの白色化した信号のカートシスが最大(非ガウス性が最 大)となるような回転行列を探す • ICAの最適化アルゴリズムによって実現可能 混合行列 混合前のソース信号 白色化行列 回転行列 混合後の観測信号 白色化後の観測信号 回転後の分離信号 分離行列 79
ICAの音源分離の原理 • ICAの動作原理を図解(直観的な理解のため) – 1. 2つの観測信号(混合信号)を白色化する • 白色化は観測信号の分散共分散行列が単位行列となるように変換する • 2つの観測信号 間の自己相関値 と相互相関値 は • の分散共分散行列 は 但し, 第二成分 0.0009 0.0095 主成分 の固有値と固有ベクトルは左図 80
ICAの音源分離の原理 • ICAの動作原理を図解(直観的な理解のため) – 1. 2つの観測信号(混合信号)を白色化する • 白色化は観測信号の分散共分散行列が単位行列となるように変換する • 白色化の変換行列を とすると,白色化後の信号は • の分散共分散行列 が単位行列になるような を求める – の固有値分解として とすると 白色化行列 混合後の観測信号 白色化後の観測信号 無相関かつ 分散が両信号とも1 81
ICAの音源分離の原理 • ICAの動作原理を図解(直観的な理解のため) – 2. 2つの白色化した信号のカートシスが最大(非ガウス性が最 大)となるような回転行列を探す • 白色化された観測信号が互いに独立になるように回転する • 2次元における回転行列 は 但し は反時 計回りを正と する • 独立になるように回転=ばってんが十字になる角度で回転 両信号のカートシス 回転後の分離信号 が最大となる角度, すなわち両信号が 最も非ガウスになる 角度を見つける! – そのような角度 をどうやって求めるのか? 白色化後の観測信号 82
ICAの音源分離の原理 • ICAの動作原理を図解(直観的な理解のため) – 2. 2つの白色化した信号のカートシスが最大(非ガウス性が最 大)となるような回転行列を探す • 白色化された観測信号が互いに独立になるように回転する • 1度回転毎に両信号のカートシスをプロットすると ( のカートシス)+( のカートシス) 白色化後の観測信号 90° 180° 0° のカートシス のカートシス 回転変換 270° 338° 83
ICAの音源分離の原理 • ICAの動作原理を図解(直観的な理解のため) – 2. 2つの白色化した信号のカートシスが最大(非ガウス性が最 大)となるような回転行列を探す • 白色化された観測信号が互いに独立になるように回転する • 回転行列 を とすると 白色化後の観測信号 回転後の分離信号 但し,分離信号 と スケールは適当に決めている 84
ICAの音源分離の原理 • ICAの動作原理を図解(直観的な理解のため) – 2. 2つの白色化した信号のカートシスが最大(非ガウス性が最 大)となるような回転行列を探す • 白色化された観測信号が互いに独立になるように回転する • 回転行列 を とすると 白色化後の観測信号 回転後の分離信号 但し,分離信号 と スケールは適当に決めている 85
ICAの音源分離の原理 • 先の例は事前に白色化(無相関化+分散の正規化)を 施し,ICAを回転行列を求める問題に落とし込んでいる – 元々推定したかったのは混合された観測信号 を分離す る分離行列 と分離信号 – 「独立化」という変換を「白色化+座標回転」という問題に落とし 込み,求めるべき変換行列(分離行列)を回転行列に限定 • 白色化はデータのみに依存するため,何の基準も無しにできる • 推定パラメータを削減( の4つあったパラメータが のみ1つに) • 但し回転行列になるのは2次元の場合 を満たす行列 • 一般的な次元の場合はユニタリ行列に限定されることに対応している – 回転角 を求める最適化を解くこともできるが,問題が限定的な ので本講演では割愛 86
ICAの音源分離の原理 • より一般的なICAの解法として,分離信号間の独立性を 最大化する を直接勾配法で求める最適化法を紹介 • 解くべき問題は「分離信号間の独立性の最大化」 – 現在の状態と独立になった状態の距離を近づける 分離信号の結合分布 近づける 独立信号の結合分布 – 確率分布間の距離=カルバック・ライブラ(KL)ダイバージェンス – 上記の2状態の距離を最小化する分離行列 を推定する 87
ICAの音源分離の原理 • 独立性をKLダイバージェンスで測る目的関数は下記の ように展開できる 結合エントロピー 周辺エントロピーの和 結合エントロピー 結合エントロピーの最大化 →分離信号間の関連をなくす →白色化(無相関化)に対応 周辺エントロピー 周辺エントロピーの和を最大化 →個々の分離信号を非ガウス化 →カートシスの和の最大化に対応 88
ICAの音源分離の原理 • 目的関数を最小化する分離行列 – 目的関数を は勾配法で推定 で偏微分して勾配を求め少しずつ下っていく 勾配: 勾配を下る更新: 勾配法による最適化のイメージ 目的関数 非線形関数 の意味 混合前の独立成分の分布 を確率変数に 関して微分した関数 神のみぞ知る分布であるし,混合前の信号は 通常手に入らないので決めようがない しかし実用上は「カートシスがガウス分布より高 いか低いか」で決めて良く,ICAは十分動く 音声のようにカートシスの高い信号には Sigmoid関数や双曲線正接関数が用いられる 89
ICAによる音源分離まとめ • 混合系(空間的な物理モデル)が未知の状態でも分離系 を推定できる – 「各音源が非ガウスである」という統計的音源モデルを活用 • 音源間の独立性最大化という最適化問題 – 最急降下法,自然勾配法,補助関数法が最適化アルゴリズムと して活用される • 音響信号をICAで分離する場合 – 残響による畳み込み混合を解くために,ICAは周波数領域の各 信号に適用される – 周波数領域ICAは「パーミュテーション問題」を引き起こす • 各周波数ビンにおいて分離信号の順番が決まらないため,100 Hzの信号 ではy1が音源1,y2が音源2として推定されるたのに,200 Hzの信号では y1が音源2,y2が音源1として推定されてしまう現象 • 全周波数帯域で分離信号の順番を整えるアラインメントが必要 90
耐残響性の向上:周波数領域ICA(FDICA) • 実際の音響信号の混合 – 残響による畳み込み混合 • 例: 会議室では300ミリ秒,コンサートホールでは2秒等 畳み込み混合 残響長 瞬時混合 (混合フィルタのタップ長) – 時不変混合係数 が時不変混合フィルタ に変化 • 対残響性の向上 – 時間領域での逆フィルタ を推定 • 16 kHzサンプルでは300 msのフィルタ長が4800タップ(1音源あたり) • ICAで推定すべきパラメータが爆発的に増加→推定は困難 – 周波数領域でのICAの適用 • 周波数毎の分離行列 を周波数毎のICAで推定→推定は容易 • パーミュテーション問題に直面 91
耐残響性の向上:周波数領域ICA(FDICA) • 周波数領域ICA(FDICA) … 周波数領域の時不変 瞬時混合行列 … … Frequency bin – 各周波数ビンの複素時系列に対して独立なICAを適用 スペクトログラム ICA1 ICA2 ICA3 ICA Time frame 逆行列 92
耐残響性の向上:周波数領域ICA(FDICA) • FDICAにおけるパーミュテーション問題 – 各周波数ビンで推定信号の順序がバラバラになる – 様々なパーミュテーションソルバが検討されている 分離信号1 音源1 観測1 ICA Time 音源2 Permutation Solver 分離信号2 観測2 全て時間周波数 領域の信号 ※分散(スケール)もバラバラになるが,これは容易に戻すことが可能 93
到来方向を用いたパーミュテーション解決 • FDICA+DOAクラスタリング – 推定分離フィルタ から混合フィルタ を逆算 – 音源の到来方向(DOA)でクラスタリング 音源 とマイクアレイ間の 伝達系を表す 「ステアリングベクトル」 混合行列の列ベクトル 正面 右 DOA クラスタリング 左 正面 到来方向(DOA) 右 推定された 音源成分の頻度 推定された 音源成分の頻度 左 Source 1 Source 2 左 正面 右 到来方向(DOA) 94
FDICAによる音源分離のメカニズム • FDICAで推定される分離フィルタ とは? – 周波数領域での瞬時混合を仮定 – 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ 空間分離 フィルタ 音源1 音源1の空間 分離フィルタ 音源1 音源2 分離フィルタのタップ長 はフーリエ変換の窓長 と同じ – 適応ビームフォーミング(ABF)と本質的に等価 • ABF:妨害音のみがアクティブな時間の出力二乗誤差最小化 • 妨害音に対してヌル(感度0)を打つような空間分離 • ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要 – FDICAはブラインドな音源分離手法 • 混合系未知,アクティビティ検出不要 • 厳密な音源位置とマイク位置が既知の場合のビームフォーミングが FDICAの上限性能といえる 95
FDICAの分離フィルタとABFの分離フィルタ BSSの 空間分離 フィルタ TR = 0 ms TR = 300 ms TR = 0 ms TR = 300 ms ABFの 空間分離 フィルタ 96
独立ベクトル分析(IVA) • よりエレガントなアプローチ – 分離フィルタ推定(周波数毎のICAの最適化) 1個の問題の – パーミュテーション問題の解決(ポスト処理) 最適化で実現したい • 独立ベクトル分析(IVA) スカラー – ICAを多変量(多次元)分布モデルへ拡張( – 周波数をまとめたベクトル変数に対するICA 多変量非ガウス分布 混合行列 観測信号 ベクトル 分離行列 ) 推定信号 互いに独立 … … … … … 互いに高次相関を持つ 同じ音源が一つの推定信号に自然にまとまる 97
IVAにおける音源分布と高次相関 • FDICAとIVAの違いは非ガウス音源分布のみ – 音源の事前分布が一変量か多変量か • IVAの仮定する音源の事前分布 – 零平均ラプラス分布の例(音声信号のモデルとして一般的) 周波数毎に独立な 事前分布 周波数間で高次相 関をもつ事前分布 分散共分散行列 – 後者は (互いに無相関)の場合でも, • 球対称な分布を仮定していることに起因 • 高次相関性,高次依存性が生じる のとき が互いに依存 ベクトルノルムにのみ依存 98
IVAにおける音源分布と高次相関 互いに独立な 二変数ラプラス 分布 x1とx2は互いに独立なラプラス分布 (条件付き分布はラプラス分布) 球対称な 二変数ラプラ ス分布 x1とx2は互いに無相関だが 依存関係がある • 球対称音源分布の(かなりざっくりとした)定性的な説明 – 周波数間で同じ時間変動を持つ成分を一つの音源としてまとめ る傾向にある パーミュテーション問題の回避 99
FDICAとIVAの分離原理比較 • FDICAの分離原理 推定信号 STFT 分離フィルタ 推定信号の分布形状があらかじめ仮定した非ガウス な音源分布に近づくように分離フィルタを更新 Time Frequency 観測信号 Frequency 中心極限定理より,混合信号 本来の音源信号は はガウス分布に近い信号 非ガウス分布に従う スカラーの 確率変数 推定信号の 現在の分布形状 非ガウスな 音源分布 互いに 独立 Time • IVAの分離原理 Frequency 推定信号 分離フィルタ STFT 推定信号の分布形状があらかじめ仮定した非ガウスな 球対称の音源分布に近づくように分離フィルタを更新 Time Frequency 観測信号 ベクトルの多変量 確率変数 非ガウスな 球対称多変量 推定信号の 音源分布 現在の分布形状 互いに 独立 Time 100
FDICA及びIVAの音源モデル拡張の動機 • ICAで仮定される非ガウスな音源分布 – 分離フィルタを推定する唯一の手がかり:音源モデル – より正確な音源分布 → 高精度な分離フィルタの推定 – 確率分布というマクロなモデル • 音源信号の持つ時間周波数の構造は考慮できない – 音楽信号では音源間の独立性が弱まる • 時間的な共起(リズム),周波数の重なり(ハーモニー) 等 • 時間周波数構造を分散の変動として表現したISNMF – 従来手法よりも正確な音源分布としてICAの推定に用いたい – ICAの高速・安定な最適化も受け継ぎたい • 多チャネルNMFの最適化はあまりにも非効率・不安定 • 時変分散複素ガウスIVA(時変IVA) • 独立低ランク行列分析(ILRMA) 101
様々な非ガウス分布を仮定したIVA • 球対称ラプラス分布IVA(再掲) – 定常な球対称ラプラス分布を仮定 ラプラスIVA 非ガウス分布 (球対称ラプラス分布) 分散 • 時変分散複素ガウス分布IVA – 分散が時変なパラメトリックな複素ガウス分布を仮定 – 時間方向の音源アクティビティを時変分散でモデル化 複素ガウス分布 時変IVA 非ガウス分布 時変分散 102
Frequency 時変IVAの 音源モデル Frequency 「低ランク性」の音源モデルへの導入 Time 濃淡が分散の大小 分散の大小は音源のパワーの大小 Time 時変な成分 周波数方向には一様な分散 Basis Frequency ILRMAの 音源モデル Frequency 時間周波数上での分散の変動を ISNMFで低ランク表現 Time Time Basis 基底数(音源モデルのランク数)は任意 103
IVAとNMFを融合した新しいBSS: ILRMA イ ル マ • 独立低ランク行列分析(independent low-rank matrix analysis: ILRMA) – 時間周波数で分散が変動する複素ガウス分布を仮定 複素ガウス分布 時間周波数変動分散 (低ランク音源モデル) 非ガウス分布 Basis Frequency 提案手法の 音源モデル Frequency – 分離音源が「互いに独立」かつ「できるだけ低ランク」になる Time Time Basis 基底数(音源モデルのランク数)は任意 104
IVAとNMFを融合した新しいBSS: ILRMA • FDICA,IVA,及びILRMAの比較 FDICAの音源モデル スカラー変数の非ガウス分布 (ラプラス分布) ラプラスIVAの音源モデル NMFによる低ランクな 時間周波数構造 (時間周波数分散変動型 複素ガウス分布) 観測信号 推定信号 分離 フィルタ Frequency ILRMAの音源モデル Frequency ベクトル変数の多変量な 球対称非ガウス分布 (多変量ラプラス分布) Time Time 低ランクな時間周波数構造を 持つように分離フィルタを更新 105
独立成分分析に基づく音源分離の歴史と発展(再掲) • 基礎理論とその拡張手法 1994 独立成分分析(ICA) 1998 周波数領域ICA(FDICA) Age 1999 2006 パーミュテーション問題 解決法の検討 独立ベクトル分析(IVA) 2011 補助関数IVA(AuxIVA) 2012 時変複素ガウスIVA 2016 非負値行列因子分解(NMF) NMFの様々な問題への適用 生成モデル的解釈の発見 各種拡張手法 板倉斎藤擬距離NMF(ISNMF) 2009 2013 代表的なもののみ記述 多チャネルNMF 独立低ランク行列分析(ILRMA) 106
ILRMAのコスト関数と潜在変数の導入 • ILRMAのコスト(対数尤度)関数 IVAのコスト関数 (空間分離フィルタの推定に寄与) – IVAの反復更新式 – NMFの反復更新式 分離信号: ISNMFのコスト関数 (音源モデルの推定に寄与) 2つの交互最適化反復で 全変数を容易に推定可能 • 音源の適切なランク数を潜在変数で推定することも可能 潜在変数の導入 0~1の値をとる潜在変数 – Ex. ボーカルはあまり低ランクにならず,ドラムは低ランク 107
ILRMAの最適化 • ILRMAの反復更新式(最尤推定) – NMF変数の最適化は補助関数法に基づく乗法更新式 空間分離フィルタと分離信号の更新 音源モデルの更新 但し, , は 番目の要素のみ1で 他 は0の縦ベクトル – 反復で尤度が単調増加することが保証されている • 必ずどこかの局所解(停留点)へ収束 108
ILRMAの更新のイメージ • 音源毎の空間情報(空間モデル)と 各音源の音色構造(音源モデル)を交互に学習 音源モデル 音源モデル の学習 空間分離フィルタ の学習 NMF の更新 NMF 混合信号 分離信号 – 音源毎の時間周波数構造を正確に捉えることで,独立性基準 での線形時不変な空間分離の性能向上が期待できる 109
IVA,多チャネルNMF,ILRMAの関連性 • 多チャネルNMFからみると – ランク1空間制約,逆システム(分離系)の推定問題に変換 – 決定条件(マイク数=音源数)ではILRMAと双対な問題 • 時変IVAからみると – 音源分布の基底数を1本から任意の本数に拡張 空間モデル 柔軟 限定的 • 独立に発展した多チャネルNMFとIVAを統一的に捉える 新しい理論 多チャネル NMF 空間相関行列の ランクを1に制限 IVA NMFの音源 モデルを導入 限定的 音源モデル ILRMA 柔軟 110
尤度関数の比較 • ラプラス分布IVA(オリジナル) • 時変ガウス分布IVA • 多チャネルNMF • ILRMA 時間周波数変動分散 (低ランク音源モデル) 111
概要 • 音源分離の目的と応用 – どんな技術?何に使える?今どこまでできる? – 関連する音響信号処理技術の紹介 • 代表的な音源分離技術の俯瞰 – 単一チャネルと劣決定と優決定,教師情報の有無,用いる仮定 • 1. 非負値行列因子分解(音源モデル化) – 数理・最適化理論,教師ありNMF • 2. ビームフォーミング(空間のモデル化) – 遅延和法,ヌルビームフォーマ,MVDRビームフォーマ • 3. 独立成分分析(音源と空間のモデル化) – 周波数領域ICA,パーミュテーションソルバ,独立ベクトル分析 • まとめ 112
まとめ • 音源分離 – – – – 混ざった音から混ざる前の音を推定する技術 観測信号のチャネル数,音源数,仮定等に応じて様々 あらゆるモデル(仮定)を駆使して解く 全ての音信号を対象とした応用に活用できる重要な技術 • 音源モデル – 音源の時間周波数構造の仮定(低ランク,スパース等) • 空間モデル – 物理的な音波の到来を仮定して数式で記述 113