非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法

1.1K Views

September 28, 17

スライド概要

Effective Optimization Algorithms for Blind and Supervised Music Source Separation with Nonnegative Matrix Factorization
長倉研究奨励賞第三次審査,20分間の研究概要説明
内容は自身の学位論文の一部に相当

profile-image

http://d-kitamura.net/links_en.html

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

2017年9月27日(水)16時10分 第22回長倉研究奨励賞 第3次審査 非負値行列因子分解に基づくブラインド及び 教師あり音楽音源分離の効果的最適化法 Effective Optimization Algorithms for Blind and Supervised Music Source Separation with Nonnegative Matrix Factorization 総合研究大学院大学複合科学研究科情報学専攻修了 東京大学大学院情報理工学系研究科 システム情報学専攻 特任助教 北村大地

2.

発表概要 • 背景 – 音源分離の意義と応用 – 音源分離の技術的俯瞰 • 音の時間周波数表現とモデル化 – 短時間フーリエ変換 – 低ランク近似:非負値行列因子分解(NMF) • 優決定ブラインド音源分離 – 独立性に基づくブラインド音源分離の発展 – 音源間の独立性と各音源の低ランク構造を用いた音源分離 – 音源分離デモンストレーション • さらなる音源分離を目指して 2

3.

発表概要 • 背景 – 音源分離の意義と応用 – 音源分離の技術的俯瞰 • 音の時間周波数表現とモデル化 – 短時間フーリエ変換 – 低ランク近似:非負値行列因子分解(NMF) • 優決定ブラインド音源分離 – 独立性に基づくブラインド音源分離の発展 – 音源間の独立性と各音源の低ランク構造を用いた音源分離 – 音源分離デモンストレーション • さらなる音源分離を目指して 3

4.

音源分離の工学的・社会的な重要性 • 音源分離(audio source separation) – 音響信号を対象とした信号処理技術の一つ • 信号処理:観測信号から有益な意味や情報を引き出し活用する技術 観測信号 ただの雑音… 雑音の中に人の声がある! • 知能情報学・機械学習の一大トピック – 人の声,雑音,歌声,楽器音,機械音等の音源を「分離」 – 人間の持つカクテルパーティ効果を機械で実現:機械の耳 • カクテルパーティ効果: うるさい場所でも特定の人物の 声に注意を向けて聞き取ること ができる人間の能力 4

5.

音源分離の応用の一例 • 補聴器デバイス – 雑音環境での聞きやすさを改善,健常者も対象 • 眼鏡と同じくらい補聴器は一般に普及するか • 音声認識 – 耐雑音性向上,会議等の複数話者同時認識 • 自動採譜 – 楽器毎の楽譜を 音楽CDから直接作成 分離 音楽CD • ライブ音楽演奏の再編集 – 音楽演奏は一期一会,その場で音源が混合 – 音楽・芸術文化の興隆 – 芸術性を損なわない超高品音源分離 • 70人のオーケストラ演奏から「この人のヴァイオリン」が分離できるか 5

6.

音源分離の技術的俯瞰:観測条件 • 観測信号のマイク数(チャネル数)による条件の違い – 単一チャネル信号(モノラル信号) 難 1ch • 音源分離には最も困難な録音条件 – 応用範囲は最も広い モノラル録音 • 音色に関する情報しか得られない – 劣決定条件(音源数 モノラル信号(1-ch) マイク数) • 2チャネル(ステレオ)等,混合されて いる音源の方がチャネルよりも多い • 単一チャネルでは得られなかった空間 的な情報が得られる L-ch R-ch 音楽CD ステレオ信号(2-ch) – 各マイクで観測した信号間の振幅差と位相差 – 優決定条件(音源数 マイク数) 1ch • 十分な数のマイクがある – 録音装置は大規模化,煩雑化 • 得られる空間的な情報の量も多い … … 易 2ch Mch マイクアレイ – 空間情報を使う音源分離は比較的高性能 多チャネル信号 6

7.

音源分離の技術的俯瞰:前提条件 • 事前に用意できる外部からのヒント(教師情報)の有無 – 何もヒントがない「ブラインド音源分離」 難 • 複数の音源が既に混合された観測信号のみ利用可能 • 音源に関する何らかの「仮定や性質」を用いる必要あり – 推測される音声の特徴や楽器音の特徴等 – 使えるヒントがある「教師あり音源分離」 • 音源分離問題を解くヒントがあれば分離性能は向上 • 利用可能な教師は様々 易 – 分離したい音源の音色サンプル(少量) » 音色をそのままパーツとして用いる – 分離したい音源の音色サンプル(大量) » 近年発展している深層学習(AI)を適用 – マイク位置や音源位置等,録音時の空間的な情報 – その他,楽譜,ユーザからの指示,カメラからの情報等 • 博士論文では「優決定条件ブラインド音源分離」と「単一 チャネル教師あり音源分離」の二大トピックが対象 7

8.

発表概要 • 背景 – 音源分離の意義と応用 – 音源分離の技術的俯瞰 • 音の時間周波数表現とモデル化 – 短時間フーリエ変換 – 低ランク近似:非負値行列因子分解(NMF) • 優決定ブラインド音源分離 – 独立性に基づくブラインド音源分離の発展 – 音源間の独立性と各音源の低ランク構造を用いた音源分離 – 音源分離デモンストレーション • さらなる音源分離を目指して 8

9.

音響信号の時間周波数表現 • 時間的に変化する音色(スペクトル)を表現したい – 短時間フーリエ変換(Short-time Fourier transform: STFT) 時間領域 時間周波数領域 … フーリエ変換 窓関数 シフト長 フーリエ変換長 フーリエ変換 フーリエ変換 周波数 時間波形 … 時間 スペクトログラム 複素数要素を持つ行列 要素毎の 絶対値と二乗 パワースペクトログラム 非負(ゼロ以上)の実数要素の行列 9

10.

音声のパワースペクトログラム 10

11.

音楽のパワースペクトログラム 11

12.

各音響信号の特徴的な「構造」 • 疎・スパース(音声も音楽も) – パワーの強い成分(黄色の部分)は全体のごく一部分 – パワーの弱い成分(暗い青色部分)が支配的 • 連続的な軌跡(音声やボーカルのみ) – 音色と音の高さは連続的にダイナミックに変動する • 縦スジと横スジ・低ランク(特に音楽) – 同じ音色,和音,メロディパターンの繰り返しが多い Speech Music 12

13.

低ランク構造のモデリング手法 • 非負値行列因子分解(NMF) [Lee+, 1999] – 音の時間周波数構造を少数の音色パーツで近似的に表現 • どのような音色の音が入っているかを推定可能 • 各音色パーツがどの時刻で生じるかも推定可能 Time アクティベーション行列 (出現タイミング) Amplitude 基底行列 (音色パーツ) Frequency Frequency 入力の音響信号 (パワースペクトログラム) Time Amplitude : 周波数 : 時間数 : 音色パーツ数 – 例えば「ピアノのドの音」や「フルートのレの音」等が一つ一つ パーツとして推定できる 13

14.

発表概要 • 背景 – 音源分離の意義と応用 – 音源分離の技術的俯瞰 • 音の時間周波数表現とモデル化 – 短時間フーリエ変換 – 低ランク近似:非負値行列因子分解(NMF) • 優決定ブラインド音源分離 – 独立性に基づくブラインド音源分離の発展 – 音源間の独立性と各音源の低ランク構造を用いた音源分離 – 音源分離デモンストレーション • さらなる音源分離を目指して 14

15.

優決定条件ブラインド音源分離の目的 • ブラインド音源分離の困難さ – 未知が多すぎる問題 未知 音源信号 (潜在因子) 未知 混合系 事前学習やモデル(仮定)が必要 混合信号 (観測情報) 既知 分離系 分離信号 (推定対象) – 録音環境は部屋の形状,マイク位置,音源位置,気温等に依 存して変化してしまう • 例:マイク位置が1 cmずれただけで「録音環境」は変わる – 録音という行為はいつも一期一会,一度きりで再現不可能 – 「録音環境」の学習データを大量に集めることは通常不可能 • 事前学習を用いた解決法は取れない – 観測信号とモデルのみを用いるブラインド音源分離が重要 15

16.

歴史と独立低ランク行列分析 • ブラインド音源分離の歴史的発展 – 独立成分分析(ICA) [Common, 1994] • 脳科学,無線工学,メディア信号処理,金融工学等の分野で発展 モデルの進化 – 音響メディア信号処理(音源分離)はICAの数理理論を常に牽引(最先端) • 音源モデルはスカラーの確率変数,非ガウスな確率分布モデル 互いに 独立 音源信号 (潜在因子) 混合系 混合信号 (観測情報) – 独立ベクトル分析(IVA) [Kim+, 2006], [Hiroe, 2006] • 音源モデルをベクトル変数に拡張,非ガウスな多変量確率分布モデル – 独立低ランク行列分析(ILRMA) [Kitamura+, 2016] • 音源モデルを低ランク行列変数に拡張,信号の時間周波数構造モデル • 正確な音源信号のモデル 高精度な分離を実現 16

17.

独立低ランク行列分析(ILRMA) • 音源分離に用いるモデル(仮定) 頻出する 音色パーツ 周波数 周波数 時間周波数表現 時間 パーツ パーツ – 混合されている複数の音源は互いに独立(ICAやIVAと同様) – 一つ一つの音源は低ランクな時間周波数構造を持つ 各音色パーツ の出現タイミング 時間 NMFでブラインドに推定 • 独立低ランク行列分析(ILRMA) [Kitamura, 2016] 音源信号 混合系 混合信号 分離系 分離信号 音源毎の 構造モデル 17

18.

ブラインド音源分離の歴史と発展 • 二大音源分離(IVAとMNMF)が深く関連する事実を証明 1994 独立成分分析(ICA) 1998 周波数領域ICA(FDICA) 年代 1999 2006 パーミュテーション問題 解決法の検討 独立ベクトル分析(IVA) 2011 補助関数IVA(AuxIVA) 2012 時変複素ガウスIVA 2016 NMFの様々な問題への適用 生成モデル的解釈の発見 各種拡張手法 板倉斎藤擬距離NMF(ISNMF) 2009 2013 非負値行列因子分解(NMF) 多チャネルNMF 独立低ランク行列分析(ILRMA) 18

19.

音源分離デモンストレーション:音楽信号の例 • 音楽信号 – 楽曲:「Ultimate NZ tour」,3音源の混合 – イコライザ(音色の変更)では不可能な処理 提案法による パートごとの 音源分離 Vocal Keyboard Guitar Vocal 3つのパートが鳴っていること に注意して聞いてください Keyboard Guitar 19

20.

独立低ランク行列分析のこれまでの成果 • 学術的な成果 – 独立に提案された多チャネルNMF [Sawada+, 2013] とIVA [Kim+, 2007] が密接に関連している事実を世界で初めて示す – 音声と音楽の両方で 高い分離精度 – IVAとほぼ同程度の 演算時間(高効率) • 信号長は20秒 SDR improvement [dB] • 工学的な成果 Good 14 12 演算時間 5927秒 (1.6時間) Music Speech 10 8 6 演算時間 16秒 演算時間 13秒 4 2 Bad 0 IVA 多チャネルNMF • 社会に与えたインパクトと応用可能性 ILRMA IEEE Xploreによる計測, IEEE/ACM Trans. ASLP誌 – 掲載論文のダウンロード数で3度1位を獲得 – ACM Computing ReviewsのNotable Articles 2016に選ばれる – 災害現場でのヘビ型被害者捜索ロボットに応用 [Bando+, 2016] • 内閣府 革新的研究開発推進プログラム(ImPACT),ロボット雑音除去 20

21.

災害現場でのヘビ型被害者捜索ロボット • 内閣府 革新的研究開発推進プログラム(ImPACT) – 災害現場での被害者捜索用ヘビ型ロボットに応用 [Bando+, 2016] • 成果:プレスリリース,論文採録 処理前の観測音 (ロボットの駆動ノイズが大きい) 提案法による 音源分離 強調された音声信号 21

22.

発表概要 • 背景 – 音源分離の意義と応用 – 音源分離の技術的俯瞰 • 音の時間周波数表現とモデル化 – 短時間フーリエ変換 – 低ランク近似:非負値行列因子分解(NMF) • 優決定ブラインド音源分離 – 独立性に基づくブラインド音源分離の発展 – 音源間の独立性と各音源の低ランク構造を用いた音源分離 – 音源分離デモンストレーション • さらなる音源分離を目指して 22

23.

開拓された新しいブラインド音源分離の形 • 潜在因子への構造モデルの導入による発展可能性 – 確率分布モデルでは困難だった詳細な「操作(induce)」が可能 領域の指定 – ユーザとのインタラクション • ユーザが分離の途中で構造モデルに介入 • 例:映画撮影等のプロ用途の音声強調 – 実現可能な学習データの活用 • 音楽信号では「楽譜」は強力な事前情報 時間区間の指定 • 楽譜の構造を直接モデルに反映可能 • 例:芸術性を損なわない超高品質な音楽編集 • その他の音源モデルの導入や最適モデルの自動獲得 周波数 スパース グループスパース モデル自動学習 周波数 周波数 低ランク 時間 時間 時間 23