[DL輪読会]Recent Progresses in Deep Learning Based Acoustic Models

>100 Views

January 26, 18

スライド概要

2018/1/26
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP “Recent Progresses in Deep Learning Base Acoustic Model” [DL Papers] Hiroshi Sekiguchi, Morikawa Lab http://deeplearning.jp/ 1

2.

書誌情報 • “Recent Progresses in Deep Learning Base Acoustic Model” (IEEE/CAA Journal of Automatica SINCA, VOL,.4, No. 3, July 2017) • Author: Dong Yu and Jinyu Li • Deep Learningの最近2年間の音響用モデルの研究概要 • 選定理由: – 音声信号時系列データを扱ったDeep Learningの最近の研究動向の概要を把握する。 – 自分の研究分野が音声関連 2

3.

アジェンダ • 音声の特徴 • 応用 – 音声認識 (Speech recognition) – 音声エンハンスメント(Speech enhancement):音声ノイズ除去 (Noise reduction),所望音声抽出(Speech separation) • 音声認識DNN手法 – End to end モデル: CNN+LSTM+DNN(CLDNN)モデル • 音声エンハンスメントのDNN手法 – 重畳音声分離:重畳音声周波数・時間ビンにおけるスペクトル比教師有り学習 • DNN Acoustic modelのロバスト向上方法 – Teacher/Student(T/S)法 • まとめ 3

4.

音声の特徴 • 周波数解析 時間変調 周波数 2~5Hz の領域 (音韻毎、 唇の動き) • 周波数包絡線 →フォルマント →音韻 周波数相関あり • ピッチ→声の高低 100Hz 近傍 の領域 (声帯の動き =ピッチ) • 多階層の時間変調 時間相関あり • 音韻<単語<文< 文脈 1KHz 近傍 の領域 音声の周波数スペクトラム(エネルギー) 4

5.

応用 • 音声認識(Speech Recognition) – 単語認識、 – 連続単語認識 = 文章 • 音声強調 – 近接マイクでの認識: 既に高性能 Google Home – 遠距離マイクでの音声認識:これから注力 Amazon Echo • ノイズの除去 • 所望音声の分離と認識 Microsoft Cortana 5

6.

音声認識:End-to-end Solution: CNN+LSTM+DNN Tara N. Sainath, et. al, Goggle 2015 IEEE ASRU • 目的:音声特徴量自動学習 – 従来、研究者が手動で抽出していた音響特徴量log Mel-filterbankに代わって、End-to-Endで自動的に音響特徴量を抽出する。 • CLDNN(Convolution-LSTM-DNN)が他の構成のDNNと比較 して性能が良い。 – 入力:生の音響波形(学習音声 2000時間、1000単語) – Multi-scale CLDNN処理:CNN、LSTMの両者を並列処理、DNNで 全層結合。ラベルは単語。 – 少々の位相シフトに性能が変化しない – 時間的畳み込み(これが位相不変性になる)とプーリングを 適用 →Gammatone filter bankでの抽出と類似 – 性能は、multi-scale CLDNNがベスト WER:Word Error Rate 6

7.

音声エンハンスメント:Speech Enhancement and Separation • 方法: – DNN/RNNの係数を教師有り学習 – Cost関数:mask rate と Ideal Binary Mask(IBM)との差異 – Training: • 入力:重畳音声 x(t) : y1(t),y2(t) • 教師ラベル:各周波数-時間ポイントでのy1(t) とy2(t)のスペクトルム比(IBM) mask rate – Test: • 重畳音声 x(t)=y(1(t)+y2(t) • Mask rateを予測し、さらに、 y1(t), y2(t)を得 る • 長所: – 解釈が容易 – 話者の汎化性が良い • 短所: – 教師有りデータ(IBM)のラベリングに 人手がかかる – 信号対ひずみ率の改善がたかだか5dB – 聴覚システムとのメカニズムの整合はな い。 y1(t) y2(t)

8.

DNN Acoustic modelのロバスト向上方法:Teacher/Student(T/S)法 J. Li, et. al Microsoft ISCA 2017 • 目的 – ドメインAで学習したDNNを使って、ドメイン Bで学習を容易にする – ドメインBの学習では、多くのラベル無しデー タでも、学習に使える • 方法 – 既学習DNNの観測入力Xsrc,fとしたとき、既学 習DNNの出力カテゴリsiの条件付確率密度:PT – 訓練対象のDNNの観測入力Xtgt,fとしたとき、 この二つのDNN出力はsiの確率密度を表し、そ の二者間のKullback-Leiber(KL) DivergenceをLoss関数として最小問題を解く。 通常は、Xsrc,f =Xtgt,f 8

9.

まとめ • 最新の音声時系列DNNの研究概要を調査した。 • End-to-Endの学習が主流になっている。 • Acoustic modelのロバスト性向上は、Teacher/Student法などが提案されて いる。今後も採用されると思われる。 9

10.

END 10