522 Views
March 10, 24
スライド概要
和気佑弥,"正則化非負値行列因子分解による非負低ランク行列補完,"香川高等専門学校電気情報工学科 卒業研究論文, 73 pages, 2024年2月.
北村研究室の学内・対外発表の発表スライドをまとめています.
香川高専 電気情報工学科 卒業研究最終発表会 セッション:2024/2/29 9:45~10:00 正則化非負値行列因子分解 による非負低ランク行列補完 Nonnegative low-rank matrix completion using regularized nonnegative matrix factorization 5年 和気佑弥(北村研究室)
2 研究背景 • 二次元データにおける欠損値 – 様々なデータには収集段階の諸要因により欠損値が発生する • マイクの音割れ,画像の白飛び/黒潰れ,アンケートの一部未回答等 アンケート 性別 年齢 男 40 女 38 女 24 男 32 服 本 2 5 3 2 1 0 4 1 本来の情報 画像データ 性別 年齢 男 ? 女 ? 女 24 ? 32 服 本 2 5 3 2 ? 0 ? 1 アンケート結果 アンケートデータ – データ品質が低下する原因となる • 行列補完 – 行列中の欠損値を行列全体の構造から推定する技術
音響信号における欠損値 • 音響スペクトログラム 時間 STFT 周波数 – 短時間フーリエ変換(short-time Fouriertransform: STFT)により 時間周波数領域へ変換した音響信号 時間 時間周波数領域(二次元) 3
4 音響信号における欠損値 • 音響スペクトログラム • 時間周波数マスク – 時間周波数領域におけるバイナリマスク – 非目的音が欠損になる→歪みの発生 周波数 – 短時間フーリエ変換(short-time Fouriertransform: STFT)により 時間周波数領域へ変換した音響信号 時間 例:時間周波数マスクに基づくブラインド音源分離 [Reju+, 2010], [Yatabe&Kitamura, 2019] 2音源が重なった スペクトログラム 一方の音源のみを”1” 残りを”0”とするマスク マスクされた後の スペクトログラム
5 音響信号における欠損値 • 音響スペクトログラム • 時間周波数マスク – 時間周波数領域におけるバイナリマスク – 非目的音が欠損になる→歪みの発生 周波数 – 短時間フーリエ変換(short-time Fouriertransform: STFT)により 時間周波数領域へ変換した音響信号 時間 時間領域(一次元) 時間周波数領域(二次元) 例:時間周波数マスクに基づくブラインド音源分離 [Reju+, 2010], [Yatabe&Kitamura, 2019] 行列補完による音質改善 2音源が重なった スペクトログラム 一方の音源のみを”1” 残りを”0”とするマスク マスクされた後の スペクトログラム
2次元データ(行列)の分解近似手法 6 • 非負値行列因子分解(nonnegative matrix factorization: NMF)[Lee, 1999] – 非負制約付きの任意基底数( 非負値観測行列 基底行列 基底 本)による低ランク近似 係数行列 推定行列 アクティベーション のランク=基底数 – 実際には下記の最適化問題 目的関数 • 目的関数値が小さくなるように , を更新していく
2次元データ(行列)の分解近似手法 7 • 非負値行列因子分解(nonnegative matrix factorization: NMF)[Lee, 1999] – 非負制約付きの任意基底数( 非負値観測行列 基底行列 基底 本)による低ランク近似 係数行列 推定行列 アクティベーション 各要素の差を算出 のランク=基底数 – 実際には下記の最適化問題 目的関数 • 目的関数値が小さくなるように , を更新していく
8 NMFに基づく行列補完 • 欠損値のある観測行列 – 目的関数値を求められない 推定行列 観測行列 一部の要素が不明 目的関数値がわからない 欠損要素は無視したい
9 NMFに基づく行列補完 • 欠損値のある観測行列 – 目的関数値を求められない 観測行列 バイナリマスク行列 推定行列 一部の要素が不明 欠損要素の目的関数値を0にする • バイナリマスク行列を用いたNMFに基づく行列補完 [Kitamura+, 2014] – 欠損値の要素をNMFの目的関数値に含めない状態で最小化
10 NMFに基づく行列補完の例 • 欠損を含む観測行列の行列補完結果 – 行列のサイズ:25×25,欠損割合:50% – 正解行列のランク=NMFの基底数=5 正解行列 観測行列 推定行列 – 正解行列のランクが既知ならばかなり高精度 ノイズと基底数の誤差が発生すると精度低下
11 NMFに基づく行列補完の例 • 欠損を含む観測行列の行列補完結果 – 行列のサイズ:25×25,欠損割合:50% 5,NMFの基底数=3(基底数の誤差) – 正解行列のランク=NMFの基底数=5 正解行列 観測行列 – 正解行列のランクが既知ならばかなり高精度 推定行列
12 NMFに基づく行列補完の例 • 欠損を含む観測行列の行列補完結果 – 行列のサイズ:25×25,欠損割合:50% NMFの基底数=5,パワー比60%のノイズ 5,NMFの基底数=3(基底数の誤差) – 正解行列のランク=NMFの基底数=5 正解行列+ノイズ 正解行列 観測行列 推定行列 – 正解行列のランクが既知ならばかなり高精度 ノイズと基底数の誤差が発生すると精度低下
先行研究 • 正則化項付きNMF – 基底間のコサイン類似度正則化を付与 [Iwase&Kitamura, 2022] – 係数の 本研究 の目的 ノルム正則化を付与 [Liu, 2003],[Le Roux, 2015] 2つの正則化が補完精度に与える影響を調査 13
コサインNMFに基づく行列補完(1/2) 14 • コサイン類似度 – 成す角を基にベクトル間の 類似度を示す指標 • 直交する時:0 • 一次従属の時:1または-1 直交 一次従属
コサインNMFに基づく行列補完(1/2) 15 • コサイン類似度 – 成す角を基にベクトル間の 類似度を示す指標 • 直交する時:0 • 一次従属の時:1または-1 直交 一次従属 – NMFの基底ベクトル間に付与 観測行列 基底行列 基底数 係数行列
コサインNMFに基づく行列補完(1/2) 16 • コサイン類似度 – 成す角を基にベクトル間の 類似度を示す指標 • 直交する時:0 • 一次従属の時:1または-1 直交 一次従属 – NMFの基底ベクトル間に付与 基底行列 総和の算出 基底ベクトル コサイン類似度
コサインNMFに基づく行列補完(2/2) 17 • コサイン類似度正則化付きNMF(コサインNMF)に基づく 行列補完 – コサイン類似度正則化を用いた基底ベクトル同士の直交化 正則化項 – 正則化項 • 重み係数 で正則化項が最適化に与える影響の強さを調整する • 基底ベクトル同士のコサイン類似度の総和を最小化する • 基底ベクトルは非負値であるため最小値は0 – 基底ベクトル同士が異なる特徴成分を表現する • より強力に特徴構造を抽出することが期待できる ノイズ・基底数の誤差に対する頑健性 相互に直交
-NMFに基づく行列補完 • ノルム – 行列の全要素の絶対値 の総和を示す値 • ノルム正則化付きNMF( – -NMF)に基づく行列補完 ノルム正則化を用いた係数行列のスパース化 – 正則化項 • 重み係数 で正則化項が最適化に与える影響の強さを調整する • 最小化することで係数行列中の値を持つ要素が少なくなる – 基底行列の要素が観測行列の重要な特徴に特化する ノイズ・基底数の誤差に対する頑健性 18
欠損音響スペクトログラムの補完実験(1/5) 19 • 使用音源 時間領域 時間周波数領域 時間領域 推定音源 正解音源 行列補完 ・ 逆STFT STFT 時間周波数マスク 観測行列 ・基底ベクトル数: ・重み係数: – SiSEC2011データセット[Araki+, 2012]の楽曲bearlin-roadsを使用 使用音源 アコースティックギター音(Gt.) “dev1__bearlin-roads__snip_85_99__acoustic_guit_main.wav” ピアノ音(Pf.) “dev1__bearlin-roads__snip_85_99__piano.wav”
欠損音響スペクトログラムの補完実験(2/5) 20 • パワースペクトログラムの生成 時間領域 時間周波数領域 時間領域 推定音源 正解音源 行列補完 ・ 逆STFT STFT 時間周波数マスク 観測行列 ・基底ベクトル数: ・重み係数: – 2音源を混合してSTFTによりパワースペクトログラムに変換 STFTの設定値 音源の長さ サンプリング周波数 14.0 s 44.1 kHz 窓関数 窓長 ブラックマン窓 92.9 ms シフト長 46.4 ms
欠損音響スペクトログラムの補完実験(3/5) 21 • 観測行列の生成 時間領域 時間周波数領域 時間領域 推定音源 正解音源 行列補完 ・ 逆STFT STFT 時間周波数マスク 観測行列 – 正解音源から時間周波数マスクを生成 – 時間周波数マスクにより欠損を生成 本実験における観測行列 ・基底ベクトル数: ・重み係数:
欠損音響スペクトログラムの補完実験(4/5) 22 • 各種NMFに基づく行列補完 時間領域 時間周波数領域 時間領域 推定音源 正解音源 行列補完 ・ 逆STFT STFT 時間周波数マスク – NMF,コサインNMF,及び 観測行列 -NMFによる行列補完 各種NMFの設定値 基底数 重み係数 4~100 ~ 乱数のシード数 10個 ・基底ベクトル数: ・重み係数: まで対数スケールで40点
欠損音響スペクトログラムの補完実験(5/5) 23 • 評価指標 時間領域 時間周波数領域 時間領域 推定音源 正解音源 行列補完 ・ 逆STFT STFT 時間周波数マスク 観測行列 ・基底ベクトル数: ・重み係数: – 音源分離分野において用いられる下記指標を使用 • 信号対歪み比(source-to-distortion ratio: SDR) →音源分離の総合指標 • 信号対干渉比(source-to-interferenceratio: SIR) →音源の分離度合い • 信号群対歪み比(sources-to-artifacts ratio: SAR) →音源の品質
24 実験結果 • 基底ベクトル数 における各手法の最良値 無補完 正則化無しNMF SAR [dB] SIR [dB] SDR [dB] – 重み係数 コサインNMF -NMF
25 実験結果 • 基底ベクトル数 における各手法の最良値 – 重み係数 僅かに上昇している 1.6 1.7 -14.7 -11.4 無補完 正則化無しNMF 13.79 SAR [dB] SDR [dB] SIR [dB] SDR [dB] 13.78 コサインNMF -12.2 -20.2 -NMF
26 実験結果 • 基底ベクトル数 における各手法の最良値 – 重み係数 26.8 22.9 21.6 上昇している 16.7 17.1 SAR [dB] SIR [dB] SIR [dB] SDR [dB] 17.2 12.5 -0.3 無補完 正則化無しNMF コサインNMF -NMF
27 実験結果 • 基底ベクトル数 における各手法の最良値 SAR [dB] SIR [dB] SDR [dB] – 重み係数 コサインNMF:SIRにおいて顕著な精度向上 →非目的音源をより抑圧している -NMF:SDRにおいて僅かに精度向上 →音源分離として総合的に性能向上 正則化無しNMFに比べ明らかに改善されている 無補完 正則化無しNMF コサインNMF -NMF
まとめ • 目的 – 正解行列のランクが不明な場合・ノイズが発生した場合にも高 精度に補完できるNMFに基づく行列補完の提案 • ノイズや基底ベクトル数の誤差に対し頑健な正則化の適用・検証 • 提案手法 – 2つの正則化付きNMFの行列補完への適用 • コサインNMF:基底ベクトル間の直交化 • -NMF:係数行列のスパース化 • 音響信号に発生する欠損値の補完実験 – 結果:正則化の適用により補完精度の向上が見られた • コサインNMF:SIRにおいて顕著な精度向上 • -NMF:SDRにおいて僅かに精度向上 28