[DL輪読会]IMPROVING VOICE SEPARATION BY INCORPORATING END-TO-END SPEECH RECOGNITION

304 Views

June 04, 21

スライド概要

2021/06/04
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

IMPROVING VOICE SEPARATION BY INCORPORATING DEEP LEARNING JP END-TO-END SPEECH RECOGNITION [DL Papers] Hiroshi Sekiguchi, Morikawa Lab http://deeplearning.jp/ 1

2.

書誌情報 • “IMPROVING VOICE SEPARATION BY INCORPORATING ENDTO-END SPEECH RECOGNITION”, Naoya Takahashi1,2, Mayank Kumar Singh3, Sakya Basak4, Parthasaarathy Sudarsanam5, Sriram Ganapathy4, Yuki Mitsufuji1 1Sony Corporation, Japan, 2University of Tsukuba, Japan 3Indian Institute of Technology Bombay, India, 4Indian Institute of Science, India 5Sony India Software Centre, India ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 41-45, doi: 10.1109/ICASSP40776.2020.9053845. IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 29, 2021 https://ieeexplore.ieee.org/document/9053845 2

3.

概要 • 大規模な音声データで学習させたEnd –to-End音声認識Neural Network(E2EASR)を転移させて、重畳音声分離の性能を向上さ せる • E2EASRが学習した音声データの音韻と言語情報が、重畳音声 分離に効果がある • E2EARは、fine-tuningにおいて、用意できる学習データが少量 の場合の転移学習で、下流のタスクの性能向上が実現可能 3

4.

モティベーション • 従来の重畳音声分離技術は、音響信号レベルの特徴量(例えば、 スペクトラム情報)を利用する手法だが、音韻や言語レベルの情 報を利用することの効果に関心があった • 聴覚の分離機能は、音韻や言語情報も使って次に来るセマン ティック情報を予測していると考えられるので興味を持った 4

5.

アジェンダ • • • • • 背景 提案手法 評価 まとめ 感想 5

6.

背景-1 • Speech enhancement(音声強調)の分野 – – – – 重畳音声分離(Voice separation) 声楽音声の分離(Singing voice separation) 背景雑音除去 部屋の反響除去 • 従来の重畳音声分離法 → 音響レベルの特徴量を処理して分離 – – – – スペクトラムクラスタリング Computational auditory scena analysis(聴覚物体分析モデル) Non-negative matrix factorization(NMF) 深層学習 • 分離性能向上が必要な利用シーン – ノイズがシビアなシーン – 学習のための音声データが少量に限るドメインのシーン 6

7.

背景-2 • 新しいトレンド:音響レベルに追加して、別の情報を使って ノイズ除去性能を上げる – 唇の動き(ビデオ情報)との併用→システムが高価、occlusion問題 – 目的音声の音韻や言語情報を使う → 本論文で扱うテーマ 学習済み音声認識 + 転移学習 → 重畳音声分離のドメインで、分離性能向上 7

8.

提案手法 • 音声認識Neural Networkを音声分離への転移学習 – 転移元ドメインの音声と転移先のドメインの音声の質が大きく異なるケース • 音声分離(転移先ドメイン)は、非コントロール環境下の録音音声(背景雑音あり) cf.音声認識(転移元ドメイン)は、コントロール環境下の録音音声(スタジオ内) • 厳しいノイズ環境でも音声分離性能が向上する – 学習データが少ないドメインの音声分離のケース:例)声楽の歌声分離 • 少ない学習データドメインでも転移学習が良好な分離性能をもたらす 教師あり学習 教師あり学習 大規模音声 データ E2EASR 転移元ドメイン 単語 文章 重畳音声 データ Networkを 転移 E2EASR 目的 音声 音声分離 転移先ドメイン 8

9.

End-to-End音声認識(E2EASR) • • • • E2EASR:Hybrid CTC/attention-based E2E architectureを使用したESPnet 入力:音響特徴量 出力:文字系列 転移元Deep features: BLSTM encoderの出力ℎ𝑡 – 音韻や言語特徴量 connectionist temporal classification E2ESR概要ブロック図 E2ESR詳細ブロック図 9

10.

音声分離への転移学習 • 音声分離は実績があるConv-TasNetを使用: – Loss関数: Scaled Invariant SDR • E2EASRのDeep Features出力を、音声分離部で活用する – Domain Translation • E2EASR出力と音声分離Encoder出力の タイミングとformat整合 • 6 x 1-D Conv with 256 filters c : concatenate Domain translation c c E2EASRを転移し 音声分離で活用 Domain translation 音声分離(Conv-TasNet) 10

11.

音声分離への転移学習 • • 音声分離部の学習時: ① 学習済E2EASRにClean音声入力 ② Clean音声のE2EASR特徴出力をオラクル出力とし、 音声分離部のDomain translationへ入力 ③ 上記と同時に、ノイジーな音声データを音声分離部に 入力 ④ 分離部出力と、clean音声のSDRをloss関数にして、 Backpropagationで分離部のNetwork係数を学習 音声分離のテスト時: ① Clean音声は無く、重畳音声のみが存在するので、重 畳音声を別の音声分離システムで分離し、暫定的な clean音声を暫定予測する ② この時の別の音声分離システムとは、Conv-TasNet 分離ブロックのDomain translationの入力をゼロにし たもので代用→もともとdeep featureはスパースなの で、ゼロに設定しても、近似の誤差は少ない ③ 別の音声分離システムの出力をE2EASRに入力し、暫 定的に分離した音声に対応したdeep featuresを得る ④ 音声分離部の音声入力に重畳音声を入れて、分離後音 声を得る ① ② ④ ③ ② ③ ① ④ ⑤ ⑤ E2EASRからの音韻言語特徴量(Deep features)は、学習時はオラクルなcleanデー タのものだが、テスト時は別の音声分離シス テムで予測しただけの擬似cleanデータのも のなので、分離音声の予測に誤りが含まれる →このgapを埋めるために、E2EASRでの Deep features抽出と音声分離を繰り返す 11

12.

声楽の歌声分離への転移 • 声楽の歌声分離はMulti-scale MDenseNetを使用 c : concatenate c c Mel spectrogram • E2EASRのDeep Features出力を 声楽の歌声分離部で活用する Domain translation Mel spectrogram – Loss関数:MSE in Mel spectrogram c MDenseNet E2EASRを転移し 声楽の歌声分離で活用 声楽の歌声分離(Multi-scale MDenseNet) 12

13.

評価方法 • 2つのタスクで評価 ① 重畳音声(複数話者音声)+ノイズから目的の音声を分離: 激烈な背景ノイズ ② 声楽から歌声を分離:学習データが少量であるドメインへの転移学習 • データーセット ① 音声認識学習 ◼ 音声データ: ◼ ◼ LibriSpeechデータセット:960時間の音声 コントロール環境下での録音音声 ② 重畳音声(複数話者音声)+ノイズから目的の音声を分離 ◼ 音声データ ◼ ◼ ◼ ◼ ノイズデータ ◼ ◼ AVSpeechデータセット:4700時間のYouTubeビデオ音声の一部を使用 非コントロール環境下での録音音声 学習データ: 100時間、テストデータ:15時間 AudioSetデータセット:YouTubeビデオの10秒のノイズクリップ 重畳音声生成+ノイズ付加: ◼ AVSpeechから複数話者音声をランダム選択して重畳+AudioSetノイズ(エネルギー比率3:1) ③ 声楽から歌声を分離 ◼ 声楽データ ◼ ◼ MUSDBデータセット:学習 100曲(6.7時間:少量データ)、テスト 50曲 3つのデータ:声楽(楽曲+歌声)、楽曲のみ、歌声のみ、 13

14.

評価方法 • ベースライン ① 重畳音声(複数話者音声)+ノイズから目的の音声を分離: 激烈な背景ノイズ ◼ ◼ Conv-TasNet オリジナル: loss関数は、Permutation Invariant Training(PIT) 唇の動きの学習結果を付加したConv-TasNet: ◼ ◼ ◼ 唇の動きの学習Network:Autoencoder:3 conv層+2 linear層+3 transposed conv層 唇の動きの学習データ:唇の領域を種々96x96ピクセルのpatchにcrop 唇の動きのdeep features: Autoencoderのbottleneck層のactivation ② 声楽から歌声を分離:小学習データのドメインへの転移学習 ◼ Conv-TasNet オリジナル ◼ ただし、E2EASR特徴量が持つ有効性を示す→SOTA達成が目的ではない 14

15.

評価結果 • 重畳音声(複数話者音声)+ノイズから目的の音声を分離: 激烈な背景ノイ ズ • 結果 – 重畳音声+背景ノイズという 悪環境でもE2EASR特徴量を 用いることで、劣悪な障害音 にロバストな分離性能が得られた – 提案方法は唇の動画クリップで 学習した特徴量を付加した Conv-TasNetをも凌駕した 本提案 – Test時に、本来は手に入らない clean音声(Oracle)をE2ESDR に入れた場合(Oracle E2EASR features)と比較しても、0.2dBの差しかない → E2EASR特徴量を組み入れが、重畳音声の分離において、目的音声以外の障害音に対し てロバストである 15

16.

評価結果 • 声楽から歌声を分離 • 結果 – 本提案法で、ベースラインを 凌駕する性能を得る 本提案 • E2EASRの学習は、声楽の歌声 とは異なる音声で学習したにも かかわらず、ベースラインを凌駕できた – Test時に、本来は手に入らない clean音声(Oracle)をE2ESDR に入れた場合(Oracle E2EASR features)と比較しても、0.2dBの差しかない → E2EASR特徴量を組み入れが、歌声の分離において、背景の楽音に対してロバ ストである 16

17.

まとめ • End-to-Endの音声認識Network(E2EASR)を音声分離に活用するための転移学習手法 を提案 • E2EASR特徴量を用いることで、音声分離と音声強調(ノイズ削減)を同時に行う ことがシミュレーションで確認できた • 唇の動きを追加するAV法をも凌駕する性能を得た • 学習データが少ないドメインのfine-tuningで有効な性能を出すことできる 17

18.

感想 • 聴覚は既に構築したセマンティックな知識を用いて次に来る語彙を予 測して分離に活用しているだろうとする説がある。これを、機械学習 の分野で実現する一方法を見た気がした。音声認識で得た音韻や言語 などのセマンティックな特徴量を、転移学習を用いて音声分離の改善 に繋げる点が感心した点。 • 音声認識Networkのどの特徴マップをdeep featuresとするべきかは、 面白い課題。 18

19.

END 19