[DL輪読会]A Wavenet for Speech Denoising

106 Views

August 02, 19

#deep learning #Machine Learning #WaveNet #Pixel CNN #Speech Denoising #Sound Processing

スライド概要

2019/08/02
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.5K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 38K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.6K

各ページのテキスト

A Wavenet for Speech Denoising ~from Pixel CNN ~ OKAMURA MASAKI

目次 1.Pixel CNN ー 2.Wavenet (Pixel CNN部分メイン) ー 3.Wavenet for speech denoising ー 4.メモ補足ー

1.Pixel CNN ー概要・画像生成タスク・自己回帰モデル・対数尤度を最大化する・input: N x N x 3 ・output: N x N x 3 x 256(R・G・Bそれぞれにおいて1~256のいずれかの値)

1.Pixel CNN ーモデル・時刻 n において、1~(n-1)までのピクセルとチャンネルを考慮する。 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 「赤」部分を求める時のマスク

1.Pixel CNN ー Residual Block チャンネル：R => (n-1)までのピクセル G=>(nのR)+(n-1)までのピクセル B=>(nのRとG)+(n-1)までのピクセル Architecture 7 × 7 conv mask A Multiple residual blocks: conv 3 × 3 mask B ReLU followed by 1 × 1 conv, mask B (2 layers) 256-way Softmax for each RGB color (Natural images) mask A:同じチャンネルの前の値を考慮しない mask B:同じチャンネルの前の値を考慮する

1.Pixel CNN ー考察・時刻 n の時は、1~(n - 1)の値を参照する。・RGBそれぞれにおいて、1~256の値を算出することができた。・Residual Block を用いた。 Wavenetに向けて大事なこと

2.Wavenet ー概要・raw audio を扱うことができた(スペクトログラム化しない) ・μ-law アルゴリズム・text -to- speech・speech recognition ・speech separation などに応用・dilated convolution を用いた(dilated :膨張)

2.Wavenet ー流れサンプリング μ-lawアルゴリズム(圧縮) Input Residual convolution ~dilated causal convolution~ Output μ-lawアルゴリズム(伸張)

2.Wavenet ー μ-law アルゴリズム・16bit (65536) => 8bit (256)

10.

2.Wavenet ー Dilated causal convolution dilation=2の場合(3 x 3) causality：因果関係 N個離れたところの情報まで含めて畳み込みたい場合には、 log2(N)層作ってあげれば良い。 =>256までみたいなら dilation=8 となる。未来をみない

11.

:σはsigmoid関数：Wは重みフィルタ 2.Wavenet ー Residual Block Gated activation ＋ skip connections Input Residual Block Residual Block Residual Block Residual Block Residual Block

12.

2.Wavenet ー考察・causality：因果関係を考慮した＝1~nまでを考慮・dilated convolutionで、 CNNでもRNNのような連続性を表せた・波形データをそのまま扱えた

13.

3.Wavenet for speech denoising ー概要・background noise を取り除くことを目標・no-causality =未来の時刻(n+1~)も考慮する・wavenet(filter length:2)=>denoise wavenet(fileter length:3) ・μ-lawアルゴリズムを使わない<＝ノイズを増幅させるから・自己回帰モデルでない＝＞時間の連続性が消える・wavenetの時間かかりすぎ問題を軽減・最終層を3 x 1にすることで連続性を維持できた！

14.

3.Wavenet for speech denoising ーモデル

15.

3.Wavenet for speech denoising ー loss : Loss s：denoised speech b：background noise ノイズを含んだスピーチ：m ＝＞ m= s+b

16.

まとめリアルタイムでの対応がどの程度できるのかを知りたいところです。

17.

[参考] 1.(Pixel Recurrent Neural Networks,https://arxiv.org/pdf/1601.06759.pdf) 2.(Day 5: Conditional Image Generation with PixelCNN Decoders, https://medium.com/a-paper-a-day-will-have-you-screaming-hurray/day-5-conditional-image-generation-with-pixelcnn-decoders-a8fc68b103a2) 3.(Sergei Turukinさんの,PixelCNNという名の記事 ,http://sergeiturukin.com/2017/02/22/pixelcnn.html) 4.(論文紹介 Pixel Recurrent Neural Networks,https://www.slideshare.net/beam2d/pixel-recurrent-neural-networks) 5.()