1.1K Views
September 28, 17
スライド概要
Effective Optimization Algorithms for Blind and Supervised Music Source Separation with Nonnegative Matrix Factorization
長倉研究奨励賞第三次審査,20分間の研究概要説明
内容は自身の学位論文の一部に相当
http://d-kitamura.net/links_en.html
2017年9月27日(水)16時10分 第22回長倉研究奨励賞 第3次審査 非負値行列因子分解に基づくブラインド及び 教師あり音楽音源分離の効果的最適化法 Effective Optimization Algorithms for Blind and Supervised Music Source Separation with Nonnegative Matrix Factorization 総合研究大学院大学複合科学研究科情報学専攻修了 東京大学大学院情報理工学系研究科 システム情報学専攻 特任助教 北村大地
発表概要 • 背景 – 音源分離の意義と応用 – 音源分離の技術的俯瞰 • 音の時間周波数表現とモデル化 – 短時間フーリエ変換 – 低ランク近似:非負値行列因子分解(NMF) • 優決定ブラインド音源分離 – 独立性に基づくブラインド音源分離の発展 – 音源間の独立性と各音源の低ランク構造を用いた音源分離 – 音源分離デモンストレーション • さらなる音源分離を目指して 2
発表概要 • 背景 – 音源分離の意義と応用 – 音源分離の技術的俯瞰 • 音の時間周波数表現とモデル化 – 短時間フーリエ変換 – 低ランク近似:非負値行列因子分解(NMF) • 優決定ブラインド音源分離 – 独立性に基づくブラインド音源分離の発展 – 音源間の独立性と各音源の低ランク構造を用いた音源分離 – 音源分離デモンストレーション • さらなる音源分離を目指して 3
音源分離の工学的・社会的な重要性 • 音源分離(audio source separation) – 音響信号を対象とした信号処理技術の一つ • 信号処理:観測信号から有益な意味や情報を引き出し活用する技術 観測信号 ただの雑音… 雑音の中に人の声がある! • 知能情報学・機械学習の一大トピック – 人の声,雑音,歌声,楽器音,機械音等の音源を「分離」 – 人間の持つカクテルパーティ効果を機械で実現:機械の耳 • カクテルパーティ効果: うるさい場所でも特定の人物の 声に注意を向けて聞き取ること ができる人間の能力 4
音源分離の応用の一例 • 補聴器デバイス – 雑音環境での聞きやすさを改善,健常者も対象 • 眼鏡と同じくらい補聴器は一般に普及するか • 音声認識 – 耐雑音性向上,会議等の複数話者同時認識 • 自動採譜 – 楽器毎の楽譜を 音楽CDから直接作成 分離 音楽CD • ライブ音楽演奏の再編集 – 音楽演奏は一期一会,その場で音源が混合 – 音楽・芸術文化の興隆 – 芸術性を損なわない超高品音源分離 • 70人のオーケストラ演奏から「この人のヴァイオリン」が分離できるか 5
音源分離の技術的俯瞰:観測条件 • 観測信号のマイク数(チャネル数)による条件の違い – 単一チャネル信号(モノラル信号) 難 1ch • 音源分離には最も困難な録音条件 – 応用範囲は最も広い モノラル録音 • 音色に関する情報しか得られない – 劣決定条件(音源数 モノラル信号(1-ch) マイク数) • 2チャネル(ステレオ)等,混合されて いる音源の方がチャネルよりも多い • 単一チャネルでは得られなかった空間 的な情報が得られる L-ch R-ch 音楽CD ステレオ信号(2-ch) – 各マイクで観測した信号間の振幅差と位相差 – 優決定条件(音源数 マイク数) 1ch • 十分な数のマイクがある – 録音装置は大規模化,煩雑化 • 得られる空間的な情報の量も多い … … 易 2ch Mch マイクアレイ – 空間情報を使う音源分離は比較的高性能 多チャネル信号 6
音源分離の技術的俯瞰:前提条件 • 事前に用意できる外部からのヒント(教師情報)の有無 – 何もヒントがない「ブラインド音源分離」 難 • 複数の音源が既に混合された観測信号のみ利用可能 • 音源に関する何らかの「仮定や性質」を用いる必要あり – 推測される音声の特徴や楽器音の特徴等 – 使えるヒントがある「教師あり音源分離」 • 音源分離問題を解くヒントがあれば分離性能は向上 • 利用可能な教師は様々 易 – 分離したい音源の音色サンプル(少量) » 音色をそのままパーツとして用いる – 分離したい音源の音色サンプル(大量) » 近年発展している深層学習(AI)を適用 – マイク位置や音源位置等,録音時の空間的な情報 – その他,楽譜,ユーザからの指示,カメラからの情報等 • 博士論文では「優決定条件ブラインド音源分離」と「単一 チャネル教師あり音源分離」の二大トピックが対象 7
発表概要 • 背景 – 音源分離の意義と応用 – 音源分離の技術的俯瞰 • 音の時間周波数表現とモデル化 – 短時間フーリエ変換 – 低ランク近似:非負値行列因子分解(NMF) • 優決定ブラインド音源分離 – 独立性に基づくブラインド音源分離の発展 – 音源間の独立性と各音源の低ランク構造を用いた音源分離 – 音源分離デモンストレーション • さらなる音源分離を目指して 8
音響信号の時間周波数表現 • 時間的に変化する音色(スペクトル)を表現したい – 短時間フーリエ変換(Short-time Fourier transform: STFT) 時間領域 時間周波数領域 … フーリエ変換 窓関数 シフト長 フーリエ変換長 フーリエ変換 フーリエ変換 周波数 時間波形 … 時間 スペクトログラム 複素数要素を持つ行列 要素毎の 絶対値と二乗 パワースペクトログラム 非負(ゼロ以上)の実数要素の行列 9
音声のパワースペクトログラム 10
音楽のパワースペクトログラム 11
各音響信号の特徴的な「構造」 • 疎・スパース(音声も音楽も) – パワーの強い成分(黄色の部分)は全体のごく一部分 – パワーの弱い成分(暗い青色部分)が支配的 • 連続的な軌跡(音声やボーカルのみ) – 音色と音の高さは連続的にダイナミックに変動する • 縦スジと横スジ・低ランク(特に音楽) – 同じ音色,和音,メロディパターンの繰り返しが多い Speech Music 12
低ランク構造のモデリング手法 • 非負値行列因子分解(NMF) [Lee+, 1999] – 音の時間周波数構造を少数の音色パーツで近似的に表現 • どのような音色の音が入っているかを推定可能 • 各音色パーツがどの時刻で生じるかも推定可能 Time アクティベーション行列 (出現タイミング) Amplitude 基底行列 (音色パーツ) Frequency Frequency 入力の音響信号 (パワースペクトログラム) Time Amplitude : 周波数 : 時間数 : 音色パーツ数 – 例えば「ピアノのドの音」や「フルートのレの音」等が一つ一つ パーツとして推定できる 13
発表概要 • 背景 – 音源分離の意義と応用 – 音源分離の技術的俯瞰 • 音の時間周波数表現とモデル化 – 短時間フーリエ変換 – 低ランク近似:非負値行列因子分解(NMF) • 優決定ブラインド音源分離 – 独立性に基づくブラインド音源分離の発展 – 音源間の独立性と各音源の低ランク構造を用いた音源分離 – 音源分離デモンストレーション • さらなる音源分離を目指して 14
優決定条件ブラインド音源分離の目的 • ブラインド音源分離の困難さ – 未知が多すぎる問題 未知 音源信号 (潜在因子) 未知 混合系 事前学習やモデル(仮定)が必要 混合信号 (観測情報) 既知 分離系 分離信号 (推定対象) – 録音環境は部屋の形状,マイク位置,音源位置,気温等に依 存して変化してしまう • 例:マイク位置が1 cmずれただけで「録音環境」は変わる – 録音という行為はいつも一期一会,一度きりで再現不可能 – 「録音環境」の学習データを大量に集めることは通常不可能 • 事前学習を用いた解決法は取れない – 観測信号とモデルのみを用いるブラインド音源分離が重要 15
歴史と独立低ランク行列分析 • ブラインド音源分離の歴史的発展 – 独立成分分析(ICA) [Common, 1994] • 脳科学,無線工学,メディア信号処理,金融工学等の分野で発展 モデルの進化 – 音響メディア信号処理(音源分離)はICAの数理理論を常に牽引(最先端) • 音源モデルはスカラーの確率変数,非ガウスな確率分布モデル 互いに 独立 音源信号 (潜在因子) 混合系 混合信号 (観測情報) – 独立ベクトル分析(IVA) [Kim+, 2006], [Hiroe, 2006] • 音源モデルをベクトル変数に拡張,非ガウスな多変量確率分布モデル – 独立低ランク行列分析(ILRMA) [Kitamura+, 2016] • 音源モデルを低ランク行列変数に拡張,信号の時間周波数構造モデル • 正確な音源信号のモデル 高精度な分離を実現 16
独立低ランク行列分析(ILRMA) • 音源分離に用いるモデル(仮定) 頻出する 音色パーツ 周波数 周波数 時間周波数表現 時間 パーツ パーツ – 混合されている複数の音源は互いに独立(ICAやIVAと同様) – 一つ一つの音源は低ランクな時間周波数構造を持つ 各音色パーツ の出現タイミング 時間 NMFでブラインドに推定 • 独立低ランク行列分析(ILRMA) [Kitamura, 2016] 音源信号 混合系 混合信号 分離系 分離信号 音源毎の 構造モデル 17
ブラインド音源分離の歴史と発展 • 二大音源分離(IVAとMNMF)が深く関連する事実を証明 1994 独立成分分析(ICA) 1998 周波数領域ICA(FDICA) 年代 1999 2006 パーミュテーション問題 解決法の検討 独立ベクトル分析(IVA) 2011 補助関数IVA(AuxIVA) 2012 時変複素ガウスIVA 2016 NMFの様々な問題への適用 生成モデル的解釈の発見 各種拡張手法 板倉斎藤擬距離NMF(ISNMF) 2009 2013 非負値行列因子分解(NMF) 多チャネルNMF 独立低ランク行列分析(ILRMA) 18
音源分離デモンストレーション:音楽信号の例 • 音楽信号 – 楽曲:「Ultimate NZ tour」,3音源の混合 – イコライザ(音色の変更)では不可能な処理 提案法による パートごとの 音源分離 Vocal Keyboard Guitar Vocal 3つのパートが鳴っていること に注意して聞いてください Keyboard Guitar 19
独立低ランク行列分析のこれまでの成果 • 学術的な成果 – 独立に提案された多チャネルNMF [Sawada+, 2013] とIVA [Kim+, 2007] が密接に関連している事実を世界で初めて示す – 音声と音楽の両方で 高い分離精度 – IVAとほぼ同程度の 演算時間(高効率) • 信号長は20秒 SDR improvement [dB] • 工学的な成果 Good 14 12 演算時間 5927秒 (1.6時間) Music Speech 10 8 6 演算時間 16秒 演算時間 13秒 4 2 Bad 0 IVA 多チャネルNMF • 社会に与えたインパクトと応用可能性 ILRMA IEEE Xploreによる計測, IEEE/ACM Trans. ASLP誌 – 掲載論文のダウンロード数で3度1位を獲得 – ACM Computing ReviewsのNotable Articles 2016に選ばれる – 災害現場でのヘビ型被害者捜索ロボットに応用 [Bando+, 2016] • 内閣府 革新的研究開発推進プログラム(ImPACT),ロボット雑音除去 20
災害現場でのヘビ型被害者捜索ロボット • 内閣府 革新的研究開発推進プログラム(ImPACT) – 災害現場での被害者捜索用ヘビ型ロボットに応用 [Bando+, 2016] • 成果:プレスリリース,論文採録 処理前の観測音 (ロボットの駆動ノイズが大きい) 提案法による 音源分離 強調された音声信号 21
発表概要 • 背景 – 音源分離の意義と応用 – 音源分離の技術的俯瞰 • 音の時間周波数表現とモデル化 – 短時間フーリエ変換 – 低ランク近似:非負値行列因子分解(NMF) • 優決定ブラインド音源分離 – 独立性に基づくブラインド音源分離の発展 – 音源間の独立性と各音源の低ランク構造を用いた音源分離 – 音源分離デモンストレーション • さらなる音源分離を目指して 22
開拓された新しいブラインド音源分離の形 • 潜在因子への構造モデルの導入による発展可能性 – 確率分布モデルでは困難だった詳細な「操作(induce)」が可能 領域の指定 – ユーザとのインタラクション • ユーザが分離の途中で構造モデルに介入 • 例:映画撮影等のプロ用途の音声強調 – 実現可能な学習データの活用 • 音楽信号では「楽譜」は強力な事前情報 時間区間の指定 • 楽譜の構造を直接モデルに反映可能 • 例:芸術性を損なわない超高品質な音楽編集 • その他の音源モデルの導入や最適モデルの自動獲得 周波数 スパース グループスパース モデル自動学習 周波数 周波数 低ランク 時間 時間 時間 23