[DL輪読会]SEGAN Speech Enhancement Generative Adversarial Network

194 Views

February 14, 20

スライド概要

020/02/14
Deep Learning JP:
http://deeplearning.jp/seminar-2/2

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

SEGAN Speech Enhancement Generative Adversarial Network okamura masaki

2.

目次 1.書誌事項 2.タスクの目的 3.GAN 4.提案手法(SEGAN) 5.実験結果 6.まとめ

3.

書誌事項 year:2017 Santiago Pascual, Antonio Bonafonte, Joan Serra - Universitat Politecnica de Catalunya,Telefonica Research(spain) project page :(http://veu.talp.cat/segan/) コードも公開:(https://github.com/santi-pdp/segan)

4.

タスクの目的 雑音下の音声をクリーンにする。 音声 雑音・騒音

5.

GAN データセット (real data) 本物 Discriminator 偽物 ノイズ (乱数などから生成) Generator

6.

GAN ① Generator:G(x) を最小化へ Discriminator:D(x),1-D(G(z))を最大化へ ②

7.

CGAN (conditional GAN) y:追加の条件を与えるベクトル 新たな特徴を加えることが可能

8.

LSGAN (least-suquares GAN) (a,b,c)=(-1,1,0),(0,1,1)が例として挙げられている。 学習が安定化

9.

提案手法(SEGAN)① ①Generator Encoder-Decoder 構造 ②Discriminator enhancement signal noisy signal noisy speech Discriminator enhancement speech real fake

10.

提案手法② -Generator 青:encoder 特徴を表す “c”を生み出すため 緑:decoder (z,c)をもとに、clean speechを生成するため 損失関数 input noise signal clean signal:

11.

提案手法(SEGAN)③ - Discriminator enhancement signal noisy signal Discriminator real fake 損失関数 D(x) input noisy signal

12.

提案手法(SEGAN)④ - 工夫 Discriminator - 最小2乗誤差を用いて導出 (LSGANを参考) Generator - λ=100,L1 norm (距離を表す指標)を利用

13.

提案手法(SEGAN)④ - コードより Discriminator loss # TRAIN D to recognize clean audio as clean Generator loss # TRAIN G so that D recognizes G(z) as real # TRAIN D to recognize generated audio as noisy leftthomasさんのgit hub(https://github.com/leftthomas/SEGAN)からの引用

14.

実験結果 1.Objective evaluation 2.Subjective evaluation PESQを除いて、性能が上がった 1~5の点数をつけてもらった結果 (1が最低、5が最高)

15.

まとめ 1.音声処理とGANの組み合わせはまだまだ増えていきそうな ので注目していきたい。 2.自分のプロジェクトにも機械学習を取り入れていきたい。 3.貴重な発表機会を与えていただきありがとうございました。

16.

参照 ・論文(https://arxiv.org/pdf/1703.09452.pdf) ・プロジェクトページ(http://veu.talp.cat/segan/) ・ Lsgan(https://arxiv.org/pdf/1611.04076.pdf),(https://qiita.com/inoudayo/items/a98da29b735c610fd7de) ・cGAN(https://arxiv.org/pdf/1411.1784.pdf) ・PESQに関して(https://www.ntt.co.jp/qos/technology/sound/04_2.html)