[DL輪読会]Recent Progresses in Deep Learning Based Acoustic Models

>100 Views

January 26, 18

#deep learning #Deep Learning #Acoustic Model #Speech Recognition #Speech Enhancement #Teacher/Student Method

スライド概要

2018/1/26
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 84.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 54.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 38.9K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 33.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 32K

各ページのテキスト

DEEP LEARNING JP “Recent Progresses in Deep Learning Base Acoustic Model” [DL Papers] Hiroshi Sekiguchi, Morikawa Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • “Recent Progresses in Deep Learning Base Acoustic Model” (IEEE/CAA Journal of Automatica SINCA, VOL,.4, No. 3, July 2017) • Author: Dong Yu and Jinyu Li • Deep Learningの最近2年間の音響用モデルの研究概要 • 選定理由: – 音声信号時系列データを扱ったDeep Learningの最近の研究動向の概要を把握する。 – 自分の研究分野が音声関連 2

アジェンダ • 音声の特徴 • 応用 – 音声認識 (Speech recognition) – 音声エンハンスメント（Speech enhancement)：音声ノイズ除去 (Noise reduction)，所望音声抽出(Speech separation) • 音声認識DNN手法 – End to end モデル: CNN+LSTM+DNN（CLDNN)モデル • 音声エンハンスメントのDNN手法 – 重畳音声分離：重畳音声周波数・時間ビンにおけるスペクトル比教師有り学習 • DNN Acoustic modelのロバスト向上方法 – Teacher/Student(T/S）法 • まとめ 3

音声の特徴 • 周波数解析時間変調周波数 2~5Hz の領域 (音韻毎、唇の動き） • 周波数包絡線 →フォルマント →音韻周波数相関あり • ピッチ→声の高低 100Hz 近傍の領域（声帯の動き =ピッチ） • 多階層の時間変調時間相関あり • 音韻＜単語＜文＜文脈 1KHz 近傍の領域音声の周波数スペクトラム（エネルギー） 4

応用 • 音声認識（Speech Recognition) – 単語認識、 – 連続単語認識 = 文章 • 音声強調 – 近接マイクでの認識: 既に高性能 Google Home – 遠距離マイクでの音声認識：これから注力 Amazon Echo • ノイズの除去 • 所望音声の分離と認識 Microsoft Cortana 5

音声認識：End-to-end Solution: CNN+LSTM+DNN Tara N. Sainath, et. al, Goggle 2015 IEEE ASRU • 目的：音声特徴量自動学習 – 従来、研究者が手動で抽出していた音響特徴量log Mel-filterbankに代わって、End-to-Endで自動的に音響特徴量を抽出する。 • CLDNN(Convolution-LSTM-DNN)が他の構成のDNNと比較して性能が良い。 – 入力：生の音響波形（学習音声 2000時間、1000単語) – Multi-scale CLDNN処理：CNN、LSTMの両者を並列処理、DNNで全層結合。ラベルは単語。 – 少々の位相シフトに性能が変化しない – 時間的畳み込み（これが位相不変性になる）とプーリングを適用 →Gammatone filter bankでの抽出と類似 – 性能は、multi-scale CLDNNがベスト WER:Word Error Rate 6

音声エンハンスメント：Speech Enhancement and Separation • 方法: – DNN/RNNの係数を教師有り学習 – Cost関数：mask rate と Ideal Binary Mask(IBM)との差異 – Training: • 入力：重畳音声 x(t) : y1(t),y2(t) • 教師ラベル：各周波数-時間ポイントでのy１(t) とy2(t)のスペクトルム比（IBM) mask rate – Test: • 重畳音声 x(t)=y(1(t)+y2(t) • Mask rateを予測し、さらに、 y1(t), y2(t)を得る • 長所： – 解釈が容易 – 話者の汎化性が良い • 短所： – 教師有りデータ（IBM）のラベリングに人手がかかる – 信号対ひずみ率の改善がたかだか5dB – 聴覚システムとのメカニズムの整合はない。 y1(t) y2(t)

DNN Acoustic modelのロバスト向上方法：Teacher/Student(T/S）法 J. Li, et. al Microsoft ISCA 2017 • 目的 – ドメインAで学習したDNNを使って、ドメイン Bで学習を容易にする – ドメインBの学習では、多くのラベル無しデータでも、学習に使える • 方法 – 既学習DNNの観測入力Xsrc,fとしたとき、既学習DNNの出力カテゴリsiの条件付確率密度：PT – 訓練対象のDNNの観測入力Xtgt,fとしたとき、この二つのDNN出力はsiの確率密度を表し、その二者間のKullback－Leiber（KL) DivergenceをLoss関数として最小問題を解く。通常は、Xsrc,f =Xtgt,f 8

まとめ • 最新の音声時系列DNNの研究概要を調査した。 • End-to-Endの学習が主流になっている。 • Acoustic modelのロバスト性向上は、Teacher/Student法などが提案されている。今後も採用されると思われる。 9

10.

END 10