1.3K Views
March 15, 18
スライド概要
北村大地, 高宗典玄, 最上伸一, 三井祥幹, 猿渡洋, 高橋祐, 近藤多伸, "ヘビーテイルな分布に基づく⾮負値⾏列因⼦分解を⽤いたスパース雑⾳除去," 日本音響学会 2018年春季研究発表会講演論文集, 1-4-14, pp. 441–444, Saitama, March 2018.
Daichi Kitamura, Norihiro Takamune, Shinichi Mogami, Yoshiki Mitsui, Hiroshi Saruwatari, Yu Takahashi, Kazunobu Kondo, "Sparse noise reduction using nonnegative matrix factorization based on heavy-tailed distributions," Proceedings of 2018 Spring Meeting of Acoustical Society of Japan, 1-4-14, pp. 441–444, Saitama, March 2018 (in Japanese).
http://d-kitamura.net/links_en.html
日本音響学会2018年春季研究発表会 2018年3月13日午後-後半B(16:45~18:00)[エンハンスメント] 1-4-14 ヘビーテイルな分布に基づく非負値行列因子分解 を用いたスパース雑音除去 Sparse noise reduction using nonnegative matrix factorization based on heavy-tailed distributions 〇北村大地, 高宗典玄, 最上伸一, 三井祥幹, 猿渡洋(東大) 高橋祐,近藤多伸(ヤマハ)
背景 • NMFの最適化基準 – 非負観測 とモデル Time Amplitude Frequency – 非負行列の低ランク近似 – 教師無し学習 – 音源分離等に応用可能 Frequency • 非負値行列因子分解(nonnegative matrix factorization: NMF)[Lee+, 1999] Time Amplitude 間のダイバージェンスの最小化 二乗Euclid距離 一般化KLダイバージェンス 板倉斎藤擬距離 etc. – 非負観測 またはその背後にある複素データ の生成モデル ( 等) を仮定した最尤推定 生成モデルの仮定 最尤推定 ダイバージェンス最小化(等価) がGauss分布に従う 二乗Euclid距離最小化 がPoisson分布に従う 一般化KLダイバージェンス最小化 が指数分布に従う 板倉斎藤擬距離最小化 が分散変動複素Gauss分布に従う 板倉斎藤擬距離最小化 2
本発表の概要 • ヘビーテイルな分布のNMF Gauss分布 ヘビーテイル な分布 – 尖度(カートシス)が高い – 裾が重く外れ値を容易に生成 – Cauchy分布NMF [Liutkus+, 2015], 安定分布NMF [Şimşekli+, 2015], t分布NMF [Yoshii+, 2016],Lévy分布NMF [Magron+, 2017] – 「外れ値」に頑健な非負低ランク近似が可能 • ロバストPCAのような低ランク成分とスパース成分の分解 • 一般化Gauss分布(generalized Gaussian dist.: GGD)に基づくNMF – 既存のNMF( ダイバージェンスNMF)との関連性を明らかに し,新たな複素生成モデルとしての解釈を与える – t分布NMFと興味深い数学的な対応関係が存在 • 各種NMFのスパース雑音除去性能を実験的に比較 3
複素スペクトログラムの生成モデル • 短時間フーリエ変換(short-time Fourier transform: STFT) – 時間信号から複素時間周波数行列への変換 時間波形 複素スペクトログラム STFT • NMFの適用 周波数 時間 – 複素スペクトログラムを非負化 :振幅スペクトログラム :パワースペクトログラム 非負化 要素毎の絶対値と指数演算 – 非負化された行列 を に分解 • 板倉斎藤擬距離に基づくNMFの複素生成モデル – 各時間周波数の複素成分 分布に従う が平均0で分散 の複素Gauss 4
板倉斎藤擬距離NMF [Févotte+, 2009] • 板倉斎藤擬距離NMF(IS-NMF)の複素生成モデル – 各時間周波数の複素成分 複素Gauss分布に従う パワーが小=分散が小 殆ど0付近の複素数しか 生成しない の原点対称な : パワースペクトログラム Frequency bin パワーが大=分散が大 大きな振幅の複素数も 生成しうる が平均0で分散 濃淡がパワーを示す Time frame 5
IS-NMFのヘビーテイル拡張 • 安定性を保証した分布によるヘビーテイル拡張 – 複素数混合を振幅やパワーで分解する妥当性を保証したNMF – 安定分布の生成モデルに基づくNMF • IS-NMF(複素Gauss分布, )[Févotte+, 2009] • Cauchy NMF(複素Cauchy分布, )[Liutkus+, 2015] • Lévy NMF(複素Lévy分布, )[Magron+, 2017] が小さい程 ヘビーテイル • 安定性を捨てたヘビーテイル拡張 – t-NMF [Yoshii+, 2016] • 複素t分布を生成モデルとしたNMF,自由度パラメタ を持つ – IS-NMF( )とCauchy NMF( )を特殊形に含む – 複素GGDに基づくNMF(GGD-NMF,本発表内容) が小さい程 ヘビーテイル • 複素GGDを生成モデルとしたNMF,形状母数パラメタ を持つ – IS-NMF( )とLaplace NMF( )※を特殊形に含む ※複素Laplace分布は2種類存在,いずれの種類もNMFへの応用 は[丹治ら, 2017]で提案済 が小さい程 ヘビーテイル 6
IS-NMFのヘビーテイル拡張の動機 • 安定性を保証したNMF – NMFの疑問:「複素数の振幅やパワーを分解していいの?」 – 「複素成分の混合の分解」を「非負行列の分解」で扱う妥当性 … 複素混合行列 … 複素行列 非負行列 非負ランク1行列 – 生成モデルに安定性があれば妥当性を保証 が安定 • 複素数の和 • 分散( の生成モデルを期待値の和で表現可能 )のように非負期待値をNMFで分解していると解釈 – 安定性を保証した分布: • Cauchy NMF [Liutkus+, 2015] • Lévy NMF [Magron+, 2017] 安定分布 [Samorodnitsky+, 1994] 7
GGD-NMFの生成モデル • 原点対称複素GGD – :形状母数, :尺度母数(時間周波数依存) • • のとき複素Laplace分布(特殊関数を含まない種類) のとき複素Gauss分布 – ドメインパラメタ を導入 • • のとき振幅スペクトログラム のときパワースペクトログラム を低ランク近似 を低ランク近似 8
GGDとt分布の比較 • GGDとt分布の裾の重さを比較 複素GDDの裾の重さ Laplace 複素t分布の裾の重さ Cauchy Gauss 9
GGDと ダイバージェンス • 複素GGD生成モデルの対数尤度差(deviance)を導出 GGDの対数尤度差 板倉斎藤擬距離( • ) ダイバージェンス – GGDの対数尤度差は ダイバージェンスの に一致 10
GGDと ダイバージェンス • GGD-NMFは ダイバージェンスにおいて かつ の領域に複素生成モデルの解釈を与えるもの -div. Dual KL-div. 1 line Dual -div. Eu-dist. Dual IS-div. (corr. with Lévy model) -1 0 KL-div. GGDの形状母数 は正値よりグラフ の中心から左側は 未定義 1 GGD-based div.に一致 複素GGD生成モデルに 基づく最尤推定と等価 -1 IS-div. line [Cichocki+, 2009]より図引用 11
補助関数法に基づく最適化アルゴリズム • GGD-NMFの乗算更新測(導出は原稿参照) GGD-NMFの更新式 参考:IS-NMFの更新式 重み付き幾何平均 :速度パラメタ [Mitsui+, 2017] – 「観測 とモデル の の重み付き幾何平均 」 を仮想的な観測としたIS-NMFと等しい – t-NMFは「観測とモデルの重み付き調和平均 」を仮想的な観 測としたIS-NMFと等しい [Yoshii+, 2016] 重み付き調和平均 12
スパース雑音除去性能評価実験:条件 • 対数正規分布から生成したスパース雑音の除去 – IDMT-SMT-GUITARデータセット [Kehling+, 2014] • “AR_Lick1_KN.wav” から “AR_Lick6_KN.wav” までの6曲 雑音の種類 対数正規分布(mu=0, sigma=4)で生成した スパース雑音(SNR=-10 dB) 比較手法 パワースペクトログラム: RPCA, IS-NMF, KL-NMF, Euclid NMF 振幅スペクトログラム: Cauchy NMF ルートスペクトログラム: Lévy NMF 任意ドメインのスペクトログラム: t-NMF, GGD-NMF 基底数 30 反復回数 500 サンプル周波数 8000 Hz 短時間Fourier変換 125 msのHann窓を窓長の1/4でシフト 初期値 開区間(0,1)の一様乱数 試行回数 5 評価指標 信号対歪み比(SDR)改善量 13
スパース雑音除去性能評価実験:データ Clean signal (AR_Lick1_KN.wav) Noisy signal (SNR = -10 dB) 音量は 正規化済 14
スパース雑音除去性能評価実験:結果 • IS-, KL-, 及びEU-NMFは全く除去できず 音量は 正規化済 Noisy signal IS-NMF (-13.42 dB) KL-NMF (-10.89 dB) EU-NMF (-5.58 dB) 15
スパース雑音除去性能評価実験:結果 • RPCAは除去できず,Ca-及びLé-NMFは分離達成 音量は 正規化済 Noisy signal Cauchy NMF (3.77 dB) RPCA (-7.78 dB) Lévy NMF (5.38 dB) 16
スパース雑音除去性能評価実験:結果 • t-及びGGD-NMFはより良い分離を達成 音量は 正規化済 Noisy signal t-NMF (7.26 dB) GGD-NMF (7.38 dB) 17
スパース雑音除去性能評価実験:結果 • 全6曲,各5回試行の合計30回の平均性能 – 仮定すべき最適な 分布の裾の重さは ドメインによって変化 • 観測スペクトログラム の何乗を分解するか によって,雑音の スパース性が変化 するため – スパース雑音の抑圧 性能は同程度 • いずれのNMFも 付近で最良 性能を記録 6 . . 1. .1 . 1 1 t-NMF .1 1 6 1 . . .1 1 1 1. . . 1 GGD-NMF .1 1 18
スパース雑音除去性能評価実験:結果 • 全6曲,各5回試行の合計30回の平均性能 – t-NMFとGGD-NMFについては最良のドメイン及びパラメタの 結果を掲載 手法とパラメタ RPCA( ) IS-NMF( ) KL-NMF( ) Euclid NMF( ) Cauchy NMF( ) Lévy NMF( ) t-NMF( ) GGD-NMF( ) 平均SDR改善量 -8.71 -14.83 -11.00 -7.48 4.11 2.63 5.20 5.47 19
まとめ • 原点対象複素GGD生成モデルに基づくNMF – ダイバージェンスに基づくNMFの特殊形 • の領域に新たな複素生成モデル解釈を与える • 複素生成モデルは独立低ランク行列分析(ILRMA)や多チャネルNMF などに応用可能 – t-NMFは観測とモデルの調和平均を観測とおいたIS-NMF – GGD-NMFは観測とモデルの幾何平均を観測とおいたIS-NMF • GGD-NMFとt-NMFのスパース雑音除去性能は同程度 – ドメインパラメタに応じて最適な裾の重さが変動 – 計算量はいずれもそれなりに重い(IS-NMFの1.5倍程度) 20