深層学習に基づく音響特徴量からの振幅スペクトログラム予測とその評価

642 Views

March 10, 24

#深層学習 #音声生成 #音響特徴量 #振幅スペクトログラム #VAE

スライド概要

川口翔也,"深層学習に基づく音響特徴量からの振幅スペクトログラム予測とその評価,"香川高等専門学校専攻科電気情報工学科コース特別研究論文, 80 pages, 2024年2月.

Kitamura Laboratory

@8262029599

スライド一覧

北村研究室の学内・対外発表の発表スライドをまとめています．

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

時間微分スペクトログラムを用いたブラインド音源分離

Kitamura Laboratory 2K

Audio spotforming using nonnegative tensor factorization with attractor-based regularization

Kitamura Laboratory 1.9K

正則化非負値行列因子分解による非負低ランク行列補完

Kitamura Laboratory 1.4K

深層学習を用いた単一話者発話区間検出

Kitamura Laboratory 1.1K

ディリクレ分布に基づく正則化付き非負値行列因子分解と打楽器スペクトル表現への適用

Kitamura Laboratory 1K

深層パーミュテーション解決法に基づくブラインド音源分離

Kitamura Laboratory 827

各ページのテキスト

令和5年度特別研究Ⅱ（ECコース）発表審査会 2024/2/7 14:50-15:10 深層学習に基づく音響特徴量からの振幅スペクトログラム予測とその評価川口翔也（北村研究室）

目次 • 研究背景 • 提案音生成システムの概要 • 振幅スペクトログラム予測実験 – 入力特徴量 – DNN構造 – 振幅スペクトログラム予測結果 – 主観評価実験 • 音色推移再現実験 – VAE構造 – 推移再現方法 – 実験結果 2

目次 • 研究背景 • 提案音生成システムの概要 • 振幅スペクトログラム予測実験 – 入力特徴量 – DNN構造 – 振幅スペクトログラム予測結果 – 主観評価実験 • 音色推移再現実験 – VAE構造 – 推移再現方法 – 実験結果 3

研究背景 4 • 深層学習（deep neural network: DNN）を用いた音色の変換及び音の生成技術の発達 – Differentiable digital signal processing（DDSP） [Engel+, 2020] – 変分自己符号化器を用いた楽器音の解析や生成 [Luo+, 2019] • 変分自己符号化器（variational auto-encoder: VAE）[Kingma+, 2013] を用いた音色の変換及び音の生成 – ピアノとギターの中間の音色 – 新しい楽器音既存の音楽変換変換変換した音楽

変分自己符号化器（VAE） • 教師なし学習の1種 • 潜在変数から確率分布を求め，潜在空間に表示 0~9の画像の違いを表す潜在空間 5

目次 • 研究背景 • 提案音生成システムの概要 • 振幅スペクトログラム予測実験 – 入力特徴量 – DNN構造 – 振幅スペクトログラム予測結果 – 主観評価実験 • 音色推移再現実験 – VAE構造 – 推移再現方法 – 実験結果 6

提案音生成システムの概要 7 • 提案音生成システム[Kawaguchi and Kitamura, 2023] – 音波形から「音高」・「音色」・「音量」を抽出 – 音色をVAEに入力 Time 入力振幅スペクトログラム生成された音色生成された波形位相復元 & ISTFT Frequency 音色 DNN Decoder Decoder VAE Coefficient Time Time Volume Frequency STFT Encoder 入力波形 Coefficient 音高 Time Time 音量生成された振幅スペクトログラム

目次 • 研究背景 • 提案音生成システムの概要 • 振幅スペクトログラム予測実験 – 入力特徴量 – DNN構造 – 振幅スペクトログラム予測結果 – 主観評価実験 • 音色推移再現実験 – VAE構造 – 推移再現方法 – 実験結果 8

9 DNNデコーダ • DNNを用いた振幅スペクトログラムの予測 – 多層パーセプトロン（MLP） – 双方向再帰型ニューラルネットワーク（BiRNN） • ゲート付き回帰ユニット（GRU） • 長・短期記憶ユニット（LSTM） Loss Coefficient D3♭ B5 Time 音色 Time 予測振幅スペクトログラム Volume 入力振幅スペクトログラム Encoder Frequency Time C3 Frequency 対応したDNNを選択音高 Time 音量特定のピッチに特化した DNNデコーダ

10.

入力特徴量 10 • Total amplitude 周波数ビン: 時間フレーム: Volume Frequency [kHz] – 振幅スペクトログラムの時間ごとの振幅の総和 Time [s] Time [s] 振幅スペクトログラム Total amplitude • メル周波数ケプストラム係数（mel-frequency cepstral coefficient： MFCC） Time [s] 振幅スペクトログラム Coefficient Frequency [kHz] Frequency [kHz] – 音の高さと音量を可能な限り除去した純粋な音色の特徴量 Time [s] 正規化振幅スペクトログラム Time [s] MFCC

11.

入力特徴量 11 • ピッチ – 音高毎に独立に学習したDNNデコーダの選択ピッチに特化したDNNデコーダ入力振幅スペクトログラム B5 Time MFCC B5 Frequency Coefficient D3♭ Volume Time Encoder Frequency ピッチ DNNを選択 C3 Time 予測振幅スペクトログラム Time Total amplitude MFCC Total amplitude ピッチ

12.

12 MLPの構造 1024 512 512 フロアリング & 行列化 Frequency 8190 ベクトル化 64638 隠れ層 3層 Time 入力データ予測振幅スペクトログラム

13.

13 BiRNNの構造 GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM 要素毎の積 & フロアリング GRU or LSTM 要素毎の積 & フロアリング GRU4層 or LSTM4層 GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM 要素毎の積 & フロアリング入力データ予測振幅スペクトログラム

14.

14 BiRNNの構造 GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM 要素毎の積 & フロアリング GRU or LSTM 要素毎の積 & フロアリング GRU4層 or LSTM4層 GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM GRU or LSTM 要素毎の積 & フロアリング入力データ予測振幅スペクトログラム

15.

実験条件 15 • 楽器音のデータセット: Nsynth [Engel+, 2017] – 305,979個のデータ: 信号長4 [s]，サンプリング周波数16 [kHz] – 289,205個（95%）の学習データ，12,678個（4%）の検証データ， 4,096個（1%）のテストデータに分割 • 実験条件窓長（FFT長）/ シフト長窓関数エポックメルフィルタの下限周波数メルフィルタの上限周波数 MFCCの次元 ( ) 損失関数フロアリング値 64 / 32 ms ハン窓 10000回 0.00 kHz 8.00 kHz 64 平均二乗誤差（MSE）

16.

実験結果（Flute） 16 Original MLP GRU LSTM

17.

主観評価方法 17 • Degradation mean opinion score（DMOS）サンプル音源本物の楽器音予測した楽器音本物の楽器音・・・ 4秒再生 2秒停止 4秒再生評価時間 4秒再生評価評価値劣化を全く感じない 5 劣化を認められるが気にならない 4 劣化がわずかに気になる 3 劣化が気になる 2 劣化が非常に気になる 1 2秒停止

18.

実験画面 • MATLABで作成したGUIアプリケーション 18

19.

主観評価結果 19 • 楽器毎の主観評価結果 Good Poor

20.

目次 • 研究背景 • 提案音生成システムの概要 • 振幅スペクトログラム予測実験 – 入力特徴量 – DNN構造 – 振幅スペクトログラム予測結果 – 主観評価実験 • 音色推移再現実験 – VAE構造 – 推移再現方法 – 実験結果 20

21.

提案音生成システム 21 • 提案音生成システムの問題点 – 「音高」，「音色」，「音量」から振幅スペクトログラムを予測 – LSTMを用いることで予測可能 • 提案音生成システムの作成 – VAEでMFCC（音色特徴量）を学習及び生成 – 生成したMFCC及び音量から振幅スペクトログラムを生成 Time Total amplitude 位相復元 & ISTFT Frequency 生成されたMFCC DNN Decoder Coefficient Time Volume VAE ピッチ Time 生成された振幅スペクトログラム生成された波形

22.

22 VAEの構造 VAE Encoder Decoder 行列化ベクトル化 MFCC 多変量ガウス分布生成された MFCC

23.

音色推移再現実験 23 • 提案音生成システムを用いた音色推移再現実験 – 2種類の楽器音の音色潜在変数をエンコーダで算出 • 楽器の潜在変数： • 楽器の潜在変数： – 潜在変数間を線形補間 – 線形補間を行った潜在変数からMFCCをデコーダで算出 – VAEで生成したMFCCとtotal amplitudeから振幅スペクトログラムを生成 • Total amplitudeも音色の潜在変数と同様に線形補間

24.

実験結果 • 音色推移再現実験楽器A 楽器B 24

25.

実験結果 • 音色推移再現実験 25

26.

まとめ 26 • DNNデコーダの作成 – 音高，音色，音量から振幅スペクトログラムを予測 – 主観評価実験結果からLSTMが最も高い評価 • 音色推移再現実験 – 提案音生成システムを作成し，VAEの潜在空間上で音色を操作 – 2種類の楽器間の音色推移を再現可能 • 今後の課題 – 位相復元方法による音響信号の劣化 – DNNを用いた振幅・位相の同時予測

27.

研究実績 27 • 川口翔也，北村大地，“双方向RNN によるMFCC 及びラウドネスからの振幅スペクトログラム予測，” 情報処理学会第134回音楽情報科学研究会，vol．2022-MUS134，no．60，pp．1–6，2022（査読無）. • 川口翔也，北村大地，“双方向LSTM によるラウドネス及びMFCC からの振幅スペクトログラム予測と評価，” 日本音響学会2022年秋季研究発表会講演論文集，1-116，pp．1471–1474，2022（査読無）． • 蓮池郁也，北村大地，渡辺瑠伊，川口翔也，“周波数双方向再帰に基づく深層パーミュテーション解決法，” 電子情報通信学会第37回信号処理シンポジウム，A13-2， pp．308–313，2022（査読無）． • Shoya Kawaguchi and Daichi Kitamura，“Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and loudness using deep neural networks，” Proc. RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing，2023． • Shoya Kawaguchi and Daichi Kitamura，“Amplitude spectrogram prediction from mel-frequency cepstrum coefficients using deep neural networks，” Journal of Signal Processing，vol．27，no．6，pp．207–211，2023． • 加藤大輝，川口翔也，北村大地，“ブラインド音源分離のための単一話者発話区間検出，” 第26回日本音響学会関西支部若手研究者交流研究発表会，p．17，2023 （査読無）．