[DL輪読会]SEGAN Speech Enhancement Generative Adversarial Network

791 Views

February 14, 20

#deep learning #SEGAN #GAN #Speech Enhancement #Machine Learning #Noise Reduction

スライド概要

020/02/14
Deep Learning JP:
http://deeplearning.jp/seminar-2/2

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.3K

各ページのテキスト

SEGAN Speech Enhancement Generative Adversarial Network okamura masaki

目次 1.書誌事項 2.タスクの目的 3.GAN 4.提案手法(SEGAN) 5.実験結果 6.まとめ

書誌事項 year：2017 Santiago Pascual, Antonio Bonafonte, Joan Serra - Universitat Politecnica de Catalunya,Telefonica Research(spain) project page ：(http://veu.talp.cat/segan/) コードも公開：(https://github.com/santi-pdp/segan)

タスクの目的雑音下の音声をクリーンにする。音声雑音・騒音

GAN データセット (real data) 本物 Discriminator 偽物ノイズ (乱数などから生成) Generator

GAN ① Generator：G(x) を最小化へ Discriminator：D(x),1-D(G(z))を最大化へ ②

CGAN (conditional GAN) y：追加の条件を与えるベクトル新たな特徴を加えることが可能

LSGAN (least-suquares GAN) (a,b,c)=(-1,1,0),(0,1,1)が例として挙げられている。学習が安定化

提案手法(SEGAN)① ①Generator Encoder-Decoder 構造 ②Discriminator enhancement signal noisy signal noisy speech Discriminator enhancement speech real fake

10.

提案手法② -Generator 青：encoder 特徴を表す “c”を生み出すため緑：decoder (z,c)をもとに、clean speechを生成するため損失関数 input noise signal clean signal:

11.

提案手法(SEGAN)③ - Discriminator enhancement signal noisy signal Discriminator real fake 損失関数 D(x) input noisy signal

12.

提案手法(SEGAN)④ - 工夫 Discriminator - 最小２乗誤差を用いて導出 (LSGANを参考) Generator - λ=100,L1 norm (距離を表す指標)を利用

13.

提案手法(SEGAN)④ - コードより Discriminator loss # TRAIN D to recognize clean audio as clean Generator loss # TRAIN G so that D recognizes G(z) as real # TRAIN D to recognize generated audio as noisy leftthomasさんのgit hub(https://github.com/leftthomas/SEGAN)からの引用

https://github.com/leftthomas/SEGAN

14.

実験結果 1.Objective evaluation 2.Subjective evaluation PESQを除いて、性能が上がった 1~5の点数をつけてもらった結果 (1が最低、5が最高)

15.

まとめ 1.音声処理とGANの組み合わせはまだまだ増えていきそうなので注目していきたい。 2.自分のプロジェクトにも機械学習を取り入れていきたい。 3.貴重な発表機会を与えていただきありがとうございました。

16.

参照・論文(https://arxiv.org/pdf/1703.09452.pdf) ・プロジェクトページ(http://veu.talp.cat/segan/) ・ Lsgan(https://arxiv.org/pdf/1611.04076.pdf),(https://qiita.com/inoudayo/items/a98da29b735c610fd7de) ・cGAN(https://arxiv.org/pdf/1411.1784.pdf) ・PESQに関して(https://www.ntt.co.jp/qos/technology/sound/04_2.html)