203 Views
March 10, 24
スライド概要
川口翔也,"深層学習に基づく音響特徴量からの振幅スペクトログラム予測とその評価,"香川高等専門学校専攻科電気情報工学科コース 特別研究論文, 80 pages, 2024年2月.
北村研究室の学内・対外発表の発表スライドをまとめています.
令和5年度特別研究Ⅱ(ECコース)発表審査会 2024/2/7 14:50-15:10 深層学習に基づく音響特徴量からの 振幅スペクトログラム予測とその評価 川口翔也(北村研究室)
目次 • 研究背景 • 提案音生成システムの概要 • 振幅スペクトログラム予測実験 – 入力特徴量 – DNN構造 – 振幅スペクトログラム予測結果 – 主観評価実験 • 音色推移再現実験 – VAE構造 – 推移再現方法 – 実験結果 2
目次 • 研究背景 • 提案音生成システムの概要 • 振幅スペクトログラム予測実験 – 入力特徴量 – DNN構造 – 振幅スペクトログラム予測結果 – 主観評価実験 • 音色推移再現実験 – VAE構造 – 推移再現方法 – 実験結果 3
研究背景 4 • 深層学習(deep neural network: DNN)を用いた音色の変換 及び音の生成技術の発達 – Differentiable digital signal processing(DDSP) [Engel+, 2020] – 変分自己符号化器を用いた楽器音の解析や生成 [Luo+, 2019] • 変分自己符号化器(variational auto-encoder: VAE)[Kingma+, 2013] を用いた音色の変換及び音の生成 – ピアノとギターの中間の音色 – 新しい楽器音 既存の音楽 変換 変換 変換した音楽
変分自己符号化器(VAE) • 教師なし学習の1種 • 潜在変数から確率分布を求め,潜在空間に表示 0~9の画像の違いを表す潜在空間 5
目次 • 研究背景 • 提案音生成システムの概要 • 振幅スペクトログラム予測実験 – 入力特徴量 – DNN構造 – 振幅スペクトログラム予測結果 – 主観評価実験 • 音色推移再現実験 – VAE構造 – 推移再現方法 – 実験結果 6
提案音生成システムの概要 7 • 提案音生成システム[Kawaguchi and Kitamura, 2023] – 音波形から「音高」・「音色」・「音量」を抽出 – 音色をVAEに入力 Time 入力振幅 スペクトログラム 生成された 音色 生成された波形 位相復元 & ISTFT Frequency 音色 DNN Decoder Decoder VAE Coefficient Time Time Volume Frequency STFT Encoder 入力波形 Coefficient 音高 Time Time 音量 生成された 振幅スペクトログラム
目次 • 研究背景 • 提案音生成システムの概要 • 振幅スペクトログラム予測実験 – 入力特徴量 – DNN構造 – 振幅スペクトログラム予測結果 – 主観評価実験 • 音色推移再現実験 – VAE構造 – 推移再現方法 – 実験結果 8
9 DNNデコーダ • DNNを用いた振幅スペクトログラムの予測 – 多層パーセプトロン(MLP) – 双方向再帰型ニューラルネットワーク(BiRNN) • ゲート付き回帰ユニット(GRU) • 長・短期記憶ユニット(LSTM) Loss Coefficient D3♭ B5 Time 音色 Time 予測振幅 スペクトログラム Volume 入力振幅 スペクトログラム Encoder Frequency Time C3 Frequency 対応したDNNを選択 音高 Time 音量 特定のピッチに特化した DNNデコーダ
入力特徴量 10 • Total amplitude 周波数ビン: 時間フレーム: Volume Frequency [kHz] – 振幅スペクトログラムの時間ごとの振幅の総和 Time [s] Time [s] 振幅スペクトログラム Total amplitude • メル周波数ケプストラム係数(mel-frequency cepstral coefficient: MFCC) Time [s] 振幅スペクトログラム Coefficient Frequency [kHz] Frequency [kHz] – 音の高さと音量を可能な限り除去した純粋な音色の特徴量 Time [s] 正規化振幅スペクトログラム Time [s] MFCC
入力特徴量 11 • ピッチ – 音高毎に独立に学習したDNNデコーダの選択 ピッチに特化したDNNデコーダ 入力振幅 スペクトログラム B5 Time MFCC B5 Frequency Coefficient D3♭ Volume Time Encoder Frequency ピッチ DNNを選択 C3 Time 予測振幅 スペクトログラム Time Total amplitude MFCC Total amplitude ピッチ
12 MLPの構造 1024 512 512 フロアリング & 行列化 Frequency 8190 ベクトル化 64638 隠れ層 3層 Time 入力データ 予測振幅 スペクトログラム
13 BiRNNの構造 GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM 要素毎の積 & フロアリング GRU or LSTM 要素毎の積 & フロアリング GRU4層 or LSTM4層 GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM 要素毎の積 & フロアリング 入力データ 予測振幅 スペクトログラム
14 BiRNNの構造 GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM 要素毎の積 & フロアリング GRU or LSTM 要素毎の積 & フロアリング GRU4層 or LSTM4層 GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM 要素毎の積 & フロアリング 入力データ 予測振幅 スペクトログラム
実験条件 15 • 楽器音のデータセット: Nsynth [Engel+, 2017] – 305,979個のデータ: 信号長4 [s],サンプリング周波数16 [kHz] – 289,205個(95%)の学習データ,12,678個(4%)の検証データ, 4,096個(1%)のテストデータに分割 • 実験条件 窓長(FFT長)/ シフト長 窓関数 エポック メルフィルタの下限周波数 メルフィルタの上限周波数 MFCCの次元 ( ) 損失関数 フロアリング値 64 / 32 ms ハン窓 10000回 0.00 kHz 8.00 kHz 64 平均二乗誤差(MSE)
実験結果(Flute) 16 Original MLP GRU LSTM
主観評価方法 17 • Degradation mean opinion score(DMOS) サンプル音源 本物の 楽器音 予測した 楽器音 本物の 楽器音 ・・・ 4秒再生 2秒停止 4秒再生 評価時間 4秒再生 評価 評価値 劣化を全く感じない 5 劣化を認められるが気にならない 4 劣化がわずかに気になる 3 劣化が気になる 2 劣化が非常に気になる 1 2秒停止
実験画面 • MATLABで作成したGUIアプリケーション 18
主観評価結果 19 • 楽器毎の主観評価結果 Good Poor
目次 • 研究背景 • 提案音生成システムの概要 • 振幅スペクトログラム予測実験 – 入力特徴量 – DNN構造 – 振幅スペクトログラム予測結果 – 主観評価実験 • 音色推移再現実験 – VAE構造 – 推移再現方法 – 実験結果 20
提案音生成システム 21 • 提案音生成システムの問題点 – 「音高」,「音色」,「音量」から振幅スペクトログラムを予測 – LSTMを用いることで予測可能 • 提案音生成システムの作成 – VAEでMFCC(音色特徴量)を学習及び生成 – 生成したMFCC及び音量から振幅スペクトログラムを生成 Time Total amplitude 位相復元 & ISTFT Frequency 生成されたMFCC DNN Decoder Coefficient Time Volume VAE ピッチ Time 生成された 振幅スペクトログラム 生成された波形
22 VAEの構造 VAE Encoder Decoder 行列化 ベクトル化 MFCC 多変量ガウス 分布 生成された MFCC
音色推移再現実験 23 • 提案音生成システムを用いた音色推移再現実験 – 2種類の楽器音の音色潜在変数 をエンコーダで算出 • 楽器 の潜在変数: • 楽器 の潜在変数: – 潜在変数間を線形補間 – 線形補間を行った潜在変数からMFCCをデコーダで算出 – VAEで生成したMFCCとtotal amplitudeから振幅スペクトログラ ムを生成 • Total amplitudeも音色の潜在変数と同様に線形補間
実験結果 • 音色推移再現実験 楽器A 楽器B 24
実験結果 • 音色推移再現実験 25
まとめ 26 • DNNデコーダの作成 – 音高,音色,音量から振幅スペクトログラムを予測 – 主観評価実験結果からLSTMが最も高い評価 • 音色推移再現実験 – 提案音生成システムを作成し,VAEの潜在空間上で音色を操作 – 2種類の楽器間の音色推移を再現可能 • 今後の課題 – 位相復元方法による音響信号の劣化 – DNNを用いた振幅・位相の同時予測
研究実績 27 • 川口翔也,北村大地,“双方向RNN によるMFCC 及びラウドネスからの振幅スペク トログラム予測,” 情報処理学会第134回音楽情報科学研究会,vol.2022-MUS134,no.60,pp.1–6,2022(査読無). • 川口翔也,北村大地,“双方向LSTM によるラウドネス及びMFCC からの振幅スペク トログラム予測と評価,” 日本音響学会2022年秋季研究発表会講演論文集,1-116,pp.1471–1474,2022(査読無). • 蓮池郁也,北村大地,渡辺瑠伊,川口翔也,“周波数双方向再帰に基づく深層パー ミュテーション解決法,” 電子情報通信学会第37回信号処理シンポジウム,A13-2, pp.308–313,2022(査読無). • Shoya Kawaguchi and Daichi Kitamura,“Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and loudness using deep neural networks,” Proc. RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing,2023. • Shoya Kawaguchi and Daichi Kitamura,“Amplitude spectrogram prediction from mel-frequency cepstrum coefficients using deep neural networks,” Journal of Signal Processing,vol.27,no.6,pp.207–211,2023. • 加藤大輝,川口翔也,北村大地,“ブラインド音源分離のための単一話者発話区間 検出,” 第26回日本音響学会関西支部若手研究者交流研究発表会,p.17,2023 (査読無).