[DL輪読会]A Wavenet for Speech Denoising

>100 Views

August 02, 19

スライド概要

2019/08/02
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

A Wavenet for Speech Denoising ~from Pixel CNN ~ OKAMURA MASAKI

2.

目次 1.Pixel CNN ー 2.Wavenet (Pixel CNN部分メイン) ー 3.Wavenet for speech denoising ー 4.メモ補足 ー

3.

1.Pixel CNN ー概要 ・画像生成タスク ・自己回帰モデル ・対数尤度を最大化する ・input: N x N x 3 ・output: N x N x 3 x 256(R・G・Bそれぞれにおいて1~256のいずれかの値)

4.

1.Pixel CNN ーモデル ・時刻 n において、1~(n-1)までのピクセルとチャンネルを考慮する。 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 「赤」部分を求める時のマスク

5.

1.Pixel CNN ー Residual Block チャンネル:R => (n-1)までのピクセル G=>(nのR)+(n-1)までのピクセル B=>(nのRとG)+(n-1)までのピクセル Architecture 7 × 7 conv mask A Multiple residual blocks: conv 3 × 3 mask B ReLU followed by 1 × 1 conv, mask B (2 layers) 256-way Softmax for each RGB color (Natural images) mask A:同じ チャンネルの前の値を考 慮しない mask B:同じ チャンネルの前の値を考 慮する

6.

1.Pixel CNN ー考察 ・時刻 n の時は、1~(n - 1)の値を参照する。 ・RGBそれぞれにおいて、1~256の値を算出することができた。 ・Residual Block を用いた。 Wavenetに向けて大事なこと

7.

2.Wavenet ー概要 ・raw audio を扱うことができた(スペクトログラム化しない) ・μ-law アルゴリズム ・text -to- speech・speech recognition ・speech separation などに応用 ・dilated convolution を用いた(dilated :膨張)

8.

2.Wavenet ー流れ サンプリング μ-lawアルゴリズム(圧縮) Input Residual convolution ~dilated causal convolution~ Output μ-lawアルゴリズム(伸張)

9.

2.Wavenet ー μ-law アルゴリズム ・16bit (65536) => 8bit (256)

10.

2.Wavenet ー Dilated causal convolution dilation=2の場合(3 x 3) causality:因果関係 N個離れたところの情報まで含めて畳み込みたい場合には、 log2(N)層作ってあげれば良い。 =>256までみたいなら dilation=8 となる。 未来をみない

11.

:σはsigmoid関数 :Wは重みフィルタ 2.Wavenet ー Residual Block Gated activation + skip connections Input Residual Block Residual Block Residual Block Residual Block Residual Block

12.

2.Wavenet ー 考察 ・causality:因果関係を考慮した=1~nまでを考慮 ・dilated convolutionで、 CNNでもRNNのような連続性を表せた ・波形データをそのまま扱えた

13.

3.Wavenet for speech denoising ー概要 ・background noise を取り除くことを目標 ・no-causality =未来の時刻(n+1~)も考慮する ・wavenet(filter length:2)=>denoise wavenet(fileter length:3) ・μ-lawアルゴリズムを使わない<=ノイズを増幅させるから ・自己回帰モデルでない=>時間の連続性が消える ・wavenetの時間かかりすぎ問題を軽減 ・最終層を3 x 1にすることで連続性を維持できた!

14.

3.Wavenet for speech denoising ーモデル

15.

3.Wavenet for speech denoising ー loss : Loss s:denoised speech b:background noise ノイズを含んだスピーチ:m => m= s+b

16.

まとめ リアルタイムでの対応がどの程度できるのかを知りたいところです。

17.

[参考] 1.(Pixel Recurrent Neural Networks,https://arxiv.org/pdf/1601.06759.pdf) 2.(Day 5: Conditional Image Generation with PixelCNN Decoders, https://medium.com/a-paper-a-day-will-have-you-screaming-hurray/day-5-conditional-image-generation-with-pixelcnn-decoders-a8fc68b103a2) 3.(Sergei Turukinさんの,PixelCNNという名の記事 ,http://sergeiturukin.com/2017/02/22/pixelcnn.html) 4.(論文紹介 Pixel Recurrent Neural Networks,https://www.slideshare.net/beam2d/pixel-recurrent-neural-networks) 5.()