[DL輪読会]Efficient Neural Audio Synthesis

>100 Views

June 01, 18

#WaveRNN #Neural Audio Synthesis #Deep Learning #Real-time Audio Generation #Neural Networks

スライド概要

2018/06/01
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.3K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 37.9K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.4K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Efficient Neural Audio Synthesis (ICML2018) Hiroshiba Kazuyuki (Dwango Media Village) http://deeplearning.jp/ 1

http://deeplearning.jp/

Efficient Neural Audio Synthesis 一言で言うと WaveNetを改修して、リアルタイムで波形生成可能なWaveRNNを提案著者 Nal Kalchbrenner (DeepMind) · Erich Elsen (Google) · Karen Simonyan (DeepMind) · Seb Noury (DeepMind) · Norman Casagrande (DeepMind) · Edward Lockhart (DeepMind) · Florian Stimberg () · Aäron van den Oord (Google Deepmind) · Sander Dieleman (DeepMind) · koray kavukcuoglu (DeepMind) ICML 2018 選択理由最近リアルタイム声質変換をやっているので、どんな論文か気になった URL: https://arxiv.org/pdf/1802.08435.pdf https://arxiv.org/pdf/1802.08435.pdf 2

https://arxiv.org/pdf/1802.08435.pdf

目次概要背景 WaveNet Parallel WaveNet 手法 WaveRNN Sparse WaveRNN Subscale WaveRNN 実験・評価 3

概要 WaveNetはSoTAな音声合成手法しかし、自己回帰生成モデルなので、生成が遅い 1秒の音声を生成するために24000回のサンプリングが必要提案手法”WaveRNN” ネットワークを大幅に小さくした計算時間を短くする手法や、並列して生成可能な手法も提案モバイルCPUでもリアルタイムで音声合成可能にした 4

背景： WaveNet TTS（Text To Speech）分野でSoTA 音声波形を1サンプルずつ作成する自己回帰モデルなのが特徴的精度は高い一方、生成が遅い Softmax分布を推定分布の最大値を出力 https://deepmind.com/blog/wavenet-generative-model-raw-audio/ 5

https://deepmind.com/blog/wavenet-generative-model-raw-audio/

背景： Parallel WaveNet 訓練済みWaveNetを教師としてParallel WaveNetを訓練自己回帰ではないため高速に生成可能局所的な独立性を仮定している順序モデルが崩壊してしまう https://arxiv.org/pdf/1711.10433.pdf 6

https://arxiv.org/pdf/1711.10433.pdf

手法： WaveRNN ネットワーク構造が小さい自己回帰モデル１層のGRUと2層の全結合 Dual Softmax 粗い8bit 1サンプル(16bit)推定を2段階に分ける 1段目で粗い8bitを推定 2段目で細かい8bitを推定 Nvidia P100 GPUでリアルタイムの4倍早く生成できた WaveNetは0.3倍程度細かい8bit GPUのレジスタを使って頑張って高速化している 7

手法： WaveRNN GPUを使ってリアルタイム音声合成できたモバイルCPUを使いたいもっと早くしたい計算時間とオーバーヘッドを削減する手法を提案 Sparse WaveRNN Subscale WaveRNN 8

手法： Sparse WaveRNN プルーニングする訓練が進むと重みの大きさのスパース性が増加する重みを大きさでソートして、小さいものからマスクをかけて省くマスクをかける数はステップが進むに連れて増やすブロックごとにマスクをかけることで高速化他にもGRUのシグモイド関数がモバイルCPUだと遅いのでソフトサイン関数にする、などの工夫モバイルCPUでもリアルタイム音声合成可能になった 9

10.

手法： Subscale WaveRNN 系列データを飛ばし飛ばし生成することで、並列生成を可能にする Bつ飛ばしで生成すれば、B並列で生成可能 B並列 10

11.

手法： Subscale WaveRNN 1×N次元の時系列データをB×(N/B)次元に変形する B並列 11

12.

手法： Subscale WaveRNN 時系列的に過去のデータ（左下）から、Bつ飛ばしに生成する B並列 12

13.

手法： Subscale WaveRNN 時系列的に過去のデータ（左下）から、Bつ飛ばしに生成する Fデータ生成後に、飛ばされたデータを並列して生成する B並列 13

14.

手法： Subscale WaveRNN このxを生成するとき、生成済みのデータ（青と緑）はどれも条件として入力可能ｘより左下のデータは過去、ｘより右にあるデータは未来のデータ 14

15.

手法： Subscale WaveRNN 生成後、1×N次元の時系列データに戻す 15

16.

実験条件 TTS（Text To Speech）タスク 24kHz、16bitサンプル学習データは44時間の読み上げ音声入力は ”conventional linguistic features” とピッチ平均オピニオン評点（MOS）やABテストで主観評価 NLLで定性評価 Subscale WaveRNNには、10層のDilated CNNを用いる 16

17.

実験条件： Sparse WaveRNN 17

18.

評価： ABテスト提案手法WaveRNNとのABテスト Sparse WaveRNNは、SparseにしていないWaveRNNより劣る Subscale WaveRNN（16並列生成が可能）は、WaveRNNと同等程度 18

19.

評価： NLL・MOS 19

20.

まとめ WaveNetと同程度のクオリティを持つ音声を高速に生成できるネットワーク、WaveRNN を提案モバイルCPUでもリアルタイム音声合成できる手法、Sparse WaveRNNを提案 WaveRNNをより高速にする手法、Subscale WaveRNNを提案 20