ICASSP2019音声＆音響論文読み会「ICASSP2019における音声認識の最新技術動向」#yjtc #icassp2019jp

310 Views

June 07, 19

#yjtc #icassp2019jp #スライド

スライド概要

ICASSP2019音声＆音響論文読み会「ICASSP2019における音声認識の最新技術動向」 @ DeNAオフィス
by ヤフー三宅純平

Yahoo!デベロッパーネットワーク

@ydnjp

スライド一覧

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

Yahoo!デベロッパーネットワーク 195.1K

ゼロから始める転移学習

Yahoo!デベロッパーネットワーク 92.5K

ヤフーにおける WebAuthn と Passkey の UX の紹介と考察 #idcon #fidcon

idcon fidcon

Yahoo!デベロッパーネットワーク 83.1K

OpenID Connectとネイティブアプリを取り巻く仕様と動向 Yahoo! JAPANの取り組み #openid #openid_tokyo

openid openid_tokyo

Yahoo!デベロッパーネットワーク 65.6K

運用業務とスクラムは本当に組み合わせにくいのか︖運用業務が大半を占めるプロダクト開発での試行錯誤

devsumi

Yahoo!デベロッパーネットワーク 43.7K

ヤフーのオンプレ機械学習基盤AIPFについて #ml_kubernetes

ml_kubernetes

Yahoo!デベロッパーネットワーク 33.8K

各ページのテキスト

自己紹介所属・名前ヤフー株式会社テクノロジーグループサイエンス統括本部音声処理三宅純平 (@jp_myk) 経歴 2009.03 奈良先端科学技術大学大学修了 2009.04 ヤフー株式会社新卒入社仕事内容ヤフー音声認識(YJVOICE)の開発・音声認識全般、言語モデル、話者認識などの研究開発・音声認識プロトコル設計・サーバ開発 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 2

音声認識の研究課題とキーワード環境の違いにロバストな音声認識を目指す研究されている …大抵は部分的な環境下の音声しか集まらない令和 VTuber 屋内男性電気をつけて遠距離発話複数人 13時35分発阿佐ヶ谷から生駒まで屋外女性 What's the weather in Tokyo. クライアント側ASR? サーバ側ASR? 子供声量(SNR) OKOO 近くの駐車場車内走行中画像提供:アフロ Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 5

音声認識の研究課題とキーワード・音声認識アーキテクチャ - DNN-HMM Hybrid, CTC, Attention Mechanism, RNN-T ・音響観点 Acoustic Model - 雑音・残響重畳学習(Multi-Style Training) - 話者適応 - i-vector, d-vector, x-vector,etc ・言語観点 Language Model - ドメイン適応 - LM Adaptation, Contextual ASR - 複数言語対応 - Multilingual ASR, Code Switching Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.

音声認識技術

10.

11.

音声認識の代表的な手法・ Left-to-Right Hidden Markov Model(HMM), DNN-HMM Hybrid - 1980sから広く用いられている手法 - 各音素の時間軸伸縮の違いを有限オートマトンの一種で制御・ Connectionist Temporal Classification(*1) - HMM likeな手法で一様な状態遷移とRNNによって各音素と何も出力しない空文字(blank) "_" を出力ラベルとして系列を違いを吸収できるようにした・ Attention based RNN encoder-decoder - 近年の機械翻訳でも用いられるSeq2Seqの手法を encoder(音響特徴)+decoder(文生成)として応用・ RNN Transducer, Hybrid CTC/Attention, (End-to-End LF-MMI) End-to-End 音声認識盛んに研究されている Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 11

12.

13.

14.

DNN-HMM音声認識

15.

音声認識の代表的な手法・ Left-to-Right Hidden Markov Model(HMM), DNN-HMM Hybrid - 1980sから広く用いられている手法 - 各音素の時間軸伸縮の違いを有限オートマトンの一種で制御・ Connectionist Temporal Classification(*1) - HMM likeな一様確率な遷移状態とRNNによって各音素と何も出力しない空文字(blank) "_" を出力ラベルとして系列を違いを吸収できるようにした・ Attention based RNN encoder-decoder - 近年の機械翻訳でも用いられるSeq2Seqの手法を encoder(音響特徴)+decoder(文生成)として応用・ RNN Transducer, Hybrid CTC/Attention, (End-to-End LF-MMI) End-to-End 音声認識盛んに研究されている Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 15

16.

DNN-HMM hybrid 音響モデル y-a+f ふーおんせーにんしき 1フレーム(10ミリ秒)毎に音声特徴量ベクトル(Filterbank等)を抽出 y-a+f 時間軸伸縮のある音素系列を効率的にモデル化 ⇒ 1音素毎に3〜5状態HMMで表現 s1 s2 s3 p(x|s1) p(x|s2) p(x|s3) DNNでモデル化各状態における出力確率 p(x|si) = p(si|x) / p(si) 状態 si の事前確率ニューラルネットワークの構造:DNN sil-a+sh:0.01 y-a+f(s1):0.9 音素状態 si:事後確率入力層中間層出力層 (440) (2048xN層) (約4000) 特徴量ベクトル40次元を11フレーム x (認識対象1+前後5フレーム) Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.

17.

DNN-HMM 音声認識の学習フェーズ音声・テキストペアコーパス GMM-HMM学習 (flat-start) フレーム単位音素アライメント DNNで音素識別学習系列識別学習 (※)SOTAであるLattice Free MMI手法では、 HMMを2状態かつ一様遷移に変更し、音素出力確率と識別学習を同時に学習音響モデル雑音残響重畳音声の生成大規模テキストコーパス (外部知識) triphone 発音辞書 N-gram 言語モデル言語モデル n-gram統計的言語モデルを重み付き有限状態トランスデューサ(WFST)で表現(CLGの場合) Context Dependecy Phone Lexicon Grammar 入力ラベル出力ラベル入力ラベル出力ラベル入力ラベル出力ラベル y-a+f a yafu: ヤフー <s> ヤフー -2.45 a-f+u: f japaN ジャパンヤフージャパン -1.2 a-i+s i ... ジャパン </s> <eps> -5 ... 大規模データ -4 ... Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 17

18.

雑音残響重畳学習 (Multi-Style Training) ・シミュレータを使って学習データのバリエーションを増やす壁の吸音特性雑音の位置音声の位置部屋のサイズ (縦・横・高さ) マイクの位置 microphones 既存の学習データシミュレーターシミュレーションデータ Kim, Chanwoo, et al. "Efficient implementation of the room simulator for training deep neural network acoustic models." arXiv preprint arXiv:1712.03439 (2017). Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 18

19.

End-to-End音声認識

20.

音声認識の代表的な手法・ Left-to-Right Hidden Markov Model(HMM), DNN-HMM Hybrid - 1980sから広く用いられている手法 - 各音素の時間軸伸縮の違いを有限オートマトンの一種で制御・ Connectionist Temporal Classification(*1) - HMM likeな一様確率な遷移状態とRNNによって各音素と何も出力しない空文字(blank) "_" を出力ラベルとして系列を違いを吸収できるようにした・ Attention based RNN encoder-decoder - 近年の機械翻訳でも用いられるSeq2Seqの手法を encoder(音響特徴)+decoder(文生成)として応用・ RNN Transducer, Hybrid CTC/Attention, (End-to-End LF-MMI) End-to-End 音声認識盛んに研究されている Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 20

21.

End-to-End音声認識の学習フェーズ音声・テキストペアコーパスニューラルネットワークの学習音響特徴量to文字モデル・学習では音声とテキストのペアを与えるのみ(音素アライメントや発音辞書が不要!) ・P(y|x)を直接計算できるように微分可能にしてNNモデル化 x:音響特徴量、y:音素/文字/サブワード/単語・ただ、言語モデル情報まで1つNNで学習しようと思うと大規模音声書き起こしが必要。 E2E ASRのbeam search+N-Best出力後、言語モデルリスコアリングを用いることが多い Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 21

22.

Connectionist Temporal Classification 入力フレームと、「音素またはサブワード系列+空文字(blank) "_" 」の出カラベルを、 forward-backwardアルゴリズム(動的計画法)を用いた自動アライメント学習正解ラベル(l) callapsing関数:B(π) CAT 可能性のあるラベル系列(π) { C C _ _ A T _ _ C C A _ T T _ _ C A T _ ニューラルネットワーク (Bi-directional LSTM) 可能性のあるラベル系列(π)を計算 p(l|x) = Σ p(π|x). π∈B⁻¹(l) 音響特徴量系列(x) Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 22

23.

Attention-based RNN encoder-decoder Listen, attend and Spell(LAS), Google, ICASSP2016 - Google Voice Search TaskでWER 10.3%を達成(w/ LM Rescoring) - CLDNN-HMMは8.0% Decoder (Uni-directional LSTM) 文字生成の全系列のRNNの中間層に Attentionと1つ前の予測ラベルが入力される (※)学習時では、一つ前結果の入力に、常に正解の結果を与えずに、10%割合でランダムに入力 Encoder (Bi-directional LSTM) 音響特徴量の全フレーム系列をエンコードした特徴ベクトルを生成 Chan, William, et al. "Listen, attend and spell: A neural network for large vocabulary conversational speech recognition." ICASSP, 2016 Attention Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 23

24.

Hybrid CTC/Attention mechanism ASR Attentionの欠点をCTCで補間・Attention Mechanismは柔軟なアライメントが可能 GOOD - CTCでは難しい"triple a"や"aaa"などが捉えれる BAD - 単調なアライメントが保証されない - 挿入・削除誤りや、仮説を短く終わらせる可能性 - 過去と同じようなAttentionが来てしまった時、仮説が長くなったり、同じ文章を繰り返す可能性・CTCとJoint Trainingによる解決 - CTCは音声フレームと文字の単調アライメントに優れている - 同時学習により適切なアライメントを持つ仮説を選択 Watanabe, Shinji, et al. "Hybrid CTC/attention architecture for end-to-end speech recognition." IEEE Journal of Selected Topics in Signal Processing 11.8 (2017): 1240-1253. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 24

25.

RNN Transducer CTCの中間層の入力に、1つ前の予測ラベルが追加・ CTC 各フレームでの音響特徴量と出カラベルの条件付き独立学習 (= ほとんど音響モデル) ・ RNN-Transducer 1つ前の予測ラベルが追加されることで、言語モデル情報も学習 K. Rao, H. Sak, and R. Prabhavalkar, “Exploring architectures, data and units for streaming end-to-end speech recognition with rnn-transducer,” in Proc. ASRU, 2017, pp. 193–199. (a.) CTC (b.) RNN-Transducer Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 25

26.

End-to-End ASRの精度比較(1/2) Interspeech2017, “A Comparison of Sequence-to-Sequence Models for Speech Recognition.” - Google voice-search trafficデータで学習(original:12,500hours) - 注:BaselineにはCTC音響モデル利用(出力がCD-Phone, 例”m-i+y”) - E2Eは言語モデルリスコアリングなし - dict=ディクテーション, vs=音声検索 Model Clean Noisy numeric dict vs dict vs Baseline Uni. CDP 6.4 9.9 8.7 14.6 11.4 Baseline BiDi. CDP 5.4 8.6 6.9 - 11.4 End-to-end systems CTC-grapheme³ 39.4 53.4 - - - RNN Transducer 6.6 12.8 8.5 22.0 9.9 RNN Trans. with att. 6.5 12.5 8.4 21.5 9.7 Att. 1-layer dec. 6.6 11.7 8.7 20.6 9.0 Att. 2-layer dec. 6.3 11.2 8.1 19.7 8.7 Prabhavalkar, Rohit, et al. "A Comparison of Sequence-to-Sequence Models for Speech Recognition." Interspeech. 2017. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 26

27.

End-to-End ASRの精度比較(2/2) ICASSP2018, “State-of-the-art speech recognition with sequence-to-sequence models” - Listen, attend and Spellの改善 - Word Piece Model, Multi-headed attention(Self-Attention), 識別学習, Label smoothing等, 様々なテクニッテクを追加 - 言語モデルリスコアリングあり - Conventional = CD-DNN-HMM - Conventionalより良い精度を達成 Exp-ID Model VS/D 1st pass Model Size E8 Proposed 5.6/4.1 0.4 GB E9 Conventional 6.7/5.0 0.1 GB (AM) + 2.2 GB (PM) LFR system + 4.9 GB (LM) = 7.2GB Chiu, Chung-Cheng, et al. "State-of-the-art speech recognition with sequence-to-sequence models." 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 27

28.

キーワードスポッティング技術

29.

30.

キーワードスポッティングとは 1秒程度のキーワード音声の内在判定 KWSの用途や使える計算リソースによって適切な手法の組み合わせを選択どうモデル化するか？・連続音声認識・KWモデルvs背景モデルどのレベルでマッチさせるか？・特徴量レベル・記号レベル(連続音声認識など) 音声区間検出の有無をどうするか？ Szo ¨ke et al. “Comparison of Keyword Spotting Approaches for Informal Continuous Speech.” In: Interspeech’2005 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 30

31.

キーワードスポッティング(KWS)の先行研究 LVCSR-Base KWS ・大語彙連続音声認識(LVCSR)デコーダによる音声認識後、キーワードとの単語比較 Phonetic Search KWS ・連続音素認識デコード後、キーワードとの音素列による比較(DPマッチング等) Acoustic KWS ・KWモデルと背景モデルの音響モデルと遷移管理による判定(非テキスト変換、デコーダ不要) Deep KWS ・NNでキーワードまたはサブキーワード単位で直接識別・学習データにキーワードの音声データベースが必要・非テキスト変換、デコーダ不要 (1) Szo ¨ke et al. “Comparison of Keyword Spotting Approaches for Informal Continuous Speech.” In: Interspeech’2005 (2) Chen, Guoguo, Carlos Parada, and Georg Heigold. "Small-footprint keyword spotting using deep neural networks." ICASSP 2014 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 31

32.

Deep KWSの一例紹介・ Client-Server keyword spotting system(*1) - 1-Stage: 出カラベルが「キーワードorそれ以外」の小規模なCNNによる検出 - 2-Stage: サーバ側大語彙音声認識による検出 (*1) Michaely, Assaf Hurwitz, et al. "Keyword spotting for google assistant with contextual speech recognition." 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). IEEE, 2017. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 32

33.

ICASSP2019動向

34.

End-to-End音声認識がとにかく増えた、、個人的な印象ですが… ・ E2E ASRの未知ドメインの強化として、 TTSを活用した学習が増加・多言語ASR, Code SwitchingがE2E応用・ NNアーキテクチャとしてSelf-Attentionの利用が増えてきた・ Googleのスマホ上でE2E ASRをリアルタイムで動作 …が物凄い人の集まりようで、今後、E2Eが実用研究が増えそう (※)Speech Processing分野で”End-to-End”の検索数 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 34

35.

BYTES ARE ALL YOU NEED: END-TO-END MULTILINGUAL SPEECH RECOGNITION AND SYNTHESIS WITH BYTES 多言語対応End-to-End音声認識または音声合成のため、 Audio-to-Byte(A2B)とByte-to-Audio(B2A)を提案・B2A: LAS-based, 従来の文字出力より改善・A2B: Tacotoron-based, 従来文字入力と同等かそれ以上のMOS値を達成 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 35

36.

TTSを活用したE2E ASRの学習・ SLP-L2.1: A SPELLING CORRECTION MODEL FOR END-TO-END SPEECH RECOGNITION Jinxi Guo, University of California, Los Angeles, United States; Tara N. Sainath, Ron J. Weiss, Google, Inc., United States - TTSで生成した音声を認識させた後、認識誤りの仮説を正すNNモデルを学習 - ベースラインLASより相対18.6%の改善・ SLP-P5.4: SEMI-SUPERVISED END-TO-END SPEECH RECOGNITION USING TEXT-TO-SPEECH AND AUTOENCODERS Shigeki Karita, et al., NTT Communication Science Laboratories, Japan - unpairの音声とテキストからASRとTTSでスイッチしたAutoencoderを構築 - pairデータで学習したencoderとAutoencoderのencoderのそれぞれのLossが近くなるように学習 - WERで20.6%から18.0%まで改善・ SLP-P7.6: CYCLE-CONSISTENCY TRAINING FOR END-TO-END SPEECH RECOGNITION Takaaki Hori,et al., Mitsubishi Electric Research Laboratories (MERL) - TTS Tactoron2-basedでASRのencoderを予測Encoder(TTE)を構築 - TTEからASR EncoderにBackpropを直接するためCycle-consistency lossを使用 - 100hoursペアデータ学習から、360hoursのアンペアデータを使って14.7% WER削減他にも色々 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 36

37.

Keyword Spottingの発表論文の一例・ SLP-P9.1: END-TO-END STREAMING KEYWORD SPOTTING Raziel Alvarez, Hyun Jin Park, Google, Inc., United States - encoder-decoder NNにSVDF layerを採用(右図) - モデルサイズも5倍以上小さくして、60%以上の相対改善。・ SLP-P9.5: VOICE TRIGGER DETECTION FROM LVCSR HYPOTHESIS LATTICES USING BIDIRECTIONAL LATTICE RECURRENT NEURAL NETWORKS Woojay Jeon, Leo Liu, Henry Mason, Apple, United States - サーバ側大語彙音声認識によるKWS検出の改善 - “Hey Siri”が”hallucinates”(に誤認識してしまうことがある - 音声認識ラティス情報からKWが含まれるかモデル化(LatticeRNN) - 誤検知データを絶対値で50%以上削減 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 37

38.

まとめ・音声認識技術 - DNN-HMM Hybrid音声認識の紹介 - End-to-End音声認識の紹介 CTC,Attention, Hybrid CTC/Attention, RNN-T - End-to-End ASRの精度比較の紹介・ウェイクワード検出技術 - Deep KWSの紹介・ ICASSP2019動向 - End-to-End音声認識の研究がとにかく増えた (DNN-HMMが少々肩身がせまいと思うほどに、、) Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 38

39.

EOP ご静聴ありがとうございました

ICASSP2019音声＆音響論文読み会 「ICASSP2019における音声認識の最新技術動向」#yjtc #icassp2019jp