265 Views
June 07, 19
スライド概要
ICASSP2019音声&音響論文読み会 「ICASSP2019における音声認識の最新技術動向」 @ DeNAオフィス
by ヤフー 三宅 純平
2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp
ICASSP2019音声&音響論文読み会 ICASSP2019における 音声認識の最新技術動向 2019年6月8日 ヤフー株式会社 サイエンス統括本部 音声処理チーム 三宅 純平 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
自己紹介 所属・名前 ヤフー株式会社 テクノロジーグループ サイエンス統括本部 音声処理 三宅 純平 (@jp_myk) 経歴 2009.03 奈良先端科学技術大学大学 修了 2009.04 ヤフー株式会社 新卒入社 仕事内容 ヤフー音声認識(YJVOICE)の開発 ・音声認識全般、言語モデル、話者認識などの研究開発 ・音声認識プロトコル設計・サーバ開発 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 2
内容 ・ 音声認識の研究課題やキーワード ・ 音声認識技術 ・ キーワードスポッティング技術 ・ ICASSP2019動向 ・ まとめ Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 3
近年のVoice-enabled UIの周辺技術 OK ○ ○ ○ 明日晴れますか ウェイクワード検出 大語彙連続音声認識 音声強調技術(雑音・残響抑圧) ・ビームフォーミング ・エコーキャンセラ 話者認識 今回のプレゼンのターゲット 複数マイクの搭載 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 4
音声認識の研究課題とキーワード 環境の違いにロバストな音声認識を目指す研究されている …大抵は部分的な環境下の音声しか集まらない 令和 VTuber 屋内 男性 電気をつけて 遠距離発話 複数人 13時35分発 阿佐ヶ谷から 生駒まで 屋外 女性 What's the weather in Tokyo. クライアント側ASR? サーバ側ASR? 子供 声量(SNR) OKOO 近くの駐車場 車内走行中 画像提供:アフロ Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 5
音声認識の研究課題とキーワード ・ 音声認識アーキテクチャ - DNN-HMM Hybrid, CTC, Attention Mechanism, RNN-T ・ 音響観点 Acoustic Model - 雑音・残響重畳学習(Multi-Style Training) - 話者適応 - i-vector, d-vector, x-vector,etc ・ 言語観点 Language Model - ドメイン適応 - LM Adaptation, Contextual ASR - 複数言語対応 - Multilingual ASR, Code Switching Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
音声認識技術
改めて… OK ○ ○ ○ 明日晴れますか ウェイクワード検出 大語彙連続音声認識 音声強調技術(雑音・残響抑圧) ・ビームフォーミング ・エコーキャンセラ 話者認識 複数マイクの搭載 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 8
音声認識とは 音声認識 = 音声をテキストに変換する技術 音声波形 テキスト化 今日は京都に旅行へ 行きます 今日は? 京都に? 旅行? に? 音声波形をどうやってテキスト化? Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 9
音声認識 = 音声信号(時系列データ)のパターン認識(+言語モデル) 周波数軸(Hz) きよー は きよー と に あそび に いきます 30ms 60ms 類似した音声スペクトル パターンのモデル化 時間軸伸縮のモデル化 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 10
音声認識の代表的な手法 ・ Left-to-Right Hidden Markov Model(HMM), DNN-HMM Hybrid - 1980sから広く用いられている手法 - 各音素の時間軸伸縮の違いを有限オートマトンの一種で制御 ・ Connectionist Temporal Classification(*1) - HMM likeな手法で一様な状態遷移とRNNによって 各音素と何も出力しない空文字(blank) "_" を 出力ラベルとして系列を違いを吸収できるようにした ・ Attention based RNN encoder-decoder - 近年の機械翻訳でも用いられるSeq2Seqの手法を encoder(音響特徴)+decoder(文生成)として応用 ・ RNN Transducer, Hybrid CTC/Attention, (End-to-End LF-MMI) End-to-End 音声認識 盛んに研究されている Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 11
HMM音声認識 ka to 明日 a sh i t a 明日 a s u 飛鳥 a s u k a 明日 晴れ 荒れ 晴れ ます 音響モデル 発音辞書 言語モデル 特徴量 抽出 音声区間 検出 音声認識デコーダ RNNLM リスコアリング 認識結果 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 12
End-to-End音声認識 特徴量 抽出 ニューラルネットワーク 認識結果 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 13
DNN-HMM音声認識
音声認識の代表的な手法 ・ Left-to-Right Hidden Markov Model(HMM), DNN-HMM Hybrid - 1980sから広く用いられている手法 - 各音素の時間軸伸縮の違いを有限オートマトンの一種で制御 ・ Connectionist Temporal Classification(*1) - HMM likeな一様確率な遷移状態とRNNによって 各音素と何も出力しない空文字(blank) "_" を 出力ラベルとして系列を違いを吸収できるようにした ・ Attention based RNN encoder-decoder - 近年の機械翻訳でも用いられるSeq2Seqの手法を encoder(音響特徴)+decoder(文生成)として応用 ・ RNN Transducer, Hybrid CTC/Attention, (End-to-End LF-MMI) End-to-End 音声認識 盛んに研究されている Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 15
DNN-HMM hybrid 音響モデル y-a+f ふー お ん せー に ん し き 1フレーム(10ミリ秒)毎に 音声特徴量ベクトル(Filterbank等)を抽出 y-a+f 時間軸伸縮のある音素系列を効率的にモデル化 ⇒ 1音素毎に3〜5状態HMMで表現 s1 s2 s3 p(x|s1) p(x|s2) p(x|s3) DNNでモデル化 各状態における 出力確率 p(x|si) = p(si|x) / p(si) 状態 si の事前確率 ニューラルネットワークの構造:DNN sil-a+sh:0.01 y-a+f(s1):0.9 音素状態 si:事後確率 入力層 中間層 出力層 (440) (2048xN層) (約4000) 特徴量ベクトル40次元を11フレーム x (認識対象1+前後5フレーム) Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
DNN-HMM 音声認識の学習フェーズ 音声・テキスト ペア コーパス GMM-HMM学習 (flat-start) フレーム単位 音素アライメント DNNで音素識別学習 系列識別学習 (※)SOTAであるLattice Free MMI手法では、 HMMを2状態かつ一様遷移に変更し、 音素出力確率と識別学習を同時に学習 音響モデル 雑音残響重畳 音声の生成 大規模テキスト コーパス (外部知識) triphone 発音辞書 N-gram 言語モデル 言語モデル n-gram統計的言語モデルを 重み付き有限状態トランスデューサ(WFST)で表現(CLGの場合) Context Dependecy Phone Lexicon Grammar 入力ラベル 出力ラベル 入力ラベル 出力ラベル 入力ラベル 出力ラベル y-a+f a yafu: ヤフー <s> ヤフー -2.45 a-f+u: f japaN ジャパン ヤフー ジャパン -1.2 a-i+s i ... ジャパン </s> <eps> -5 ... 大規模 データ -4 ... Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 17
雑音残響重畳学習 (Multi-Style Training) ・シミュレータを使って学習データのバリエーションを増やす 壁の吸音特性 雑音の位置 音声の位置 部屋のサイズ (縦・横・高さ) マイクの位置 microphones 既存の学習データ シミュレーター シミュレーションデータ Kim, Chanwoo, et al. "Efficient implementation of the room simulator for training deep neural network acoustic models." arXiv preprint arXiv:1712.03439 (2017). Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 18
End-to-End音声認識
音声認識の代表的な手法 ・ Left-to-Right Hidden Markov Model(HMM), DNN-HMM Hybrid - 1980sから広く用いられている手法 - 各音素の時間軸伸縮の違いを有限オートマトンの一種で制御 ・ Connectionist Temporal Classification(*1) - HMM likeな一様確率な遷移状態とRNNによって 各音素と何も出力しない空文字(blank) "_" を 出力ラベルとして系列を違いを吸収できるようにした ・ Attention based RNN encoder-decoder - 近年の機械翻訳でも用いられるSeq2Seqの手法を encoder(音響特徴)+decoder(文生成)として応用 ・ RNN Transducer, Hybrid CTC/Attention, (End-to-End LF-MMI) End-to-End 音声認識 盛んに研究されている Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 20
End-to-End音声認識の学習フェーズ 音声・テキスト ペア コーパス ニューラルネット ワークの学習 音響特徴量to文字 モデル ・学習では音声とテキストのペアを与えるのみ(音素アライメントや発音辞書が不要!) ・P(y|x)を直接計算できるように微分可能にしてNNモデル化 x:音響特徴量、y:音素/文字/サブワード/単語 ・ただ、言語モデル情報まで1つNNで学習しようと思うと大規模音声書き起こしが必要。 E2E ASRのbeam search+N-Best出力後、言語モデルリスコアリングを用いることが多い Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 21
Connectionist Temporal Classification 入力フレームと、「音素またはサブワード系列+空文字(blank) "_" 」の出カラベルを、 forward-backwardアルゴリズム(動的計画法)を用いた自動アライメント学習 正解ラベル(l) callapsing関数:B(π) CAT 可能性のあるラベル系列(π) { C C _ _ A T _ _ C C A _ T T _ _ C A T _ ニューラルネットワーク (Bi-directional LSTM) 可能性のあるラベル系列(π)を計算 p(l|x) = Σ p(π|x). π∈B⁻¹(l) 音響特徴量系列(x) Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 22
Attention-based RNN encoder-decoder Listen, attend and Spell(LAS), Google, ICASSP2016 - Google Voice Search TaskでWER 10.3%を達成(w/ LM Rescoring) - CLDNN-HMMは8.0% Decoder (Uni-directional LSTM) 文字生成の全系列のRNNの中間層に Attentionと1つ前の予測ラベルが入力される (※)学習時では、一つ前結果の入力に、 常に正解の結果を与えずに、10%割合でランダムに入力 Encoder (Bi-directional LSTM) 音響特徴量の全フレーム系列を エンコードした特徴ベクトルを生成 Chan, William, et al. "Listen, attend and spell: A neural network for large vocabulary conversational speech recognition." ICASSP, 2016 Attention Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 23
Hybrid CTC/Attention mechanism ASR Attentionの欠点をCTCで補間 ・Attention Mechanismは柔軟なアライメントが可能 GOOD - CTCでは難しい"triple a"や"aaa"などが捉えれる BAD - 単調なアライメントが保証されない - 挿入・削除誤りや、仮説を短く終わらせる可能性 - 過去と同じようなAttentionが来てしまった時、 仮説が長くなったり、同じ文章を繰り返す可能性 ・CTCとJoint Trainingによる解決 - CTCは音声フレームと文字の単調アライメントに 優れている - 同時学習により適切なアライメントを持つ仮説を選択 Watanabe, Shinji, et al. "Hybrid CTC/attention architecture for end-to-end speech recognition." IEEE Journal of Selected Topics in Signal Processing 11.8 (2017): 1240-1253. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 24
RNN Transducer CTCの中間層の入力に、1つ前の予測ラベルが追加 ・ CTC 各フレームでの音響特徴量と 出カラベルの条件付き独立学習 (= ほとんど音響モデル) ・ RNN-Transducer 1つ前の予測ラベルが追加されることで、 言語モデル情報も学習 K. Rao, H. Sak, and R. Prabhavalkar, “Exploring architectures, data and units for streaming end-to-end speech recognition with rnn-transducer,” in Proc. ASRU, 2017, pp. 193–199. (a.) CTC (b.) RNN-Transducer Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 25
End-to-End ASRの精度比較(1/2) Interspeech2017, “A Comparison of Sequence-to-Sequence Models for Speech Recognition.” - Google voice-search trafficデータで学習(original:12,500hours) - 注:BaselineにはCTC音響モデル利用(出力がCD-Phone, 例”m-i+y”) - E2Eは言語モデルリスコアリングなし - dict=ディクテーション, vs=音声検索 Model Clean Noisy numeric dict vs dict vs Baseline Uni. CDP 6.4 9.9 8.7 14.6 11.4 Baseline BiDi. CDP 5.4 8.6 6.9 - 11.4 End-to-end systems CTC-grapheme³ 39.4 53.4 - - - RNN Transducer 6.6 12.8 8.5 22.0 9.9 RNN Trans. with att. 6.5 12.5 8.4 21.5 9.7 Att. 1-layer dec. 6.6 11.7 8.7 20.6 9.0 Att. 2-layer dec. 6.3 11.2 8.1 19.7 8.7 Prabhavalkar, Rohit, et al. "A Comparison of Sequence-to-Sequence Models for Speech Recognition." Interspeech. 2017. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 26
End-to-End ASRの精度比較(2/2) ICASSP2018, “State-of-the-art speech recognition with sequence-to-sequence models” - Listen, attend and Spellの改善 - Word Piece Model, Multi-headed attention(Self-Attention), 識別学習, Label smoothing等, 様々なテクニッテクを追加 - 言語モデルリスコアリングあり - Conventional = CD-DNN-HMM - Conventionalより良い精度を達成 Exp-ID Model VS/D 1st pass Model Size E8 Proposed 5.6/4.1 0.4 GB E9 Conventional 6.7/5.0 0.1 GB (AM) + 2.2 GB (PM) LFR system + 4.9 GB (LM) = 7.2GB Chiu, Chung-Cheng, et al. "State-of-the-art speech recognition with sequence-to-sequence models." 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 27
キーワードスポッティング技術
改めて… 本発表では、キーワードスポッティング=ウェイクワード検出として紹介します OK ○ ○ ○ 明日晴れますか ウェイクワード検出 大語彙連続音声認識 音声強調技術(雑音・残響抑圧) ・ビームフォーミング ・エコーキャンセラ 話者認識 複数マイクの搭載 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 29
キーワードスポッティングとは 1秒程度のキーワード音声の内在判定 KWSの用途や使える計算リソースによって適切な手法の組み合わせを選択 どうモデル化するか? ・連続音声認識 ・KWモデルvs背景モデル どのレベルでマッチさせるか? ・特徴量レベル ・記号レベル(連続音声認識など) 音声区間検出の 有無をどうするか? Szo ¨ke et al. “Comparison of Keyword Spotting Approaches for Informal Continuous Speech.” In: Interspeech’2005 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 30
キーワードスポッティング(KWS)の先行研究 LVCSR-Base KWS ・大語彙連続音声認識(LVCSR)デコーダによる音声認識後、 キーワードとの単語比較 Phonetic Search KWS ・連続音素認識デコード後、 キーワードとの音素列による比較(DPマッチング等) Acoustic KWS ・KWモデルと背景モデルの音響モデルと 遷移管理による判定(非テキスト変換、デコーダ不要) Deep KWS ・NNでキーワードまたはサブキーワード単位で直接識別 ・学習データにキーワードの音声データベースが必要 ・非テキスト変換、デコーダ不要 (1) Szo ¨ke et al. “Comparison of Keyword Spotting Approaches for Informal Continuous Speech.” In: Interspeech’2005 (2) Chen, Guoguo, Carlos Parada, and Georg Heigold. "Small-footprint keyword spotting using deep neural networks." ICASSP 2014 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 31
Deep KWSの一例紹介 ・ Client-Server keyword spotting system(*1) - 1-Stage: 出カラベルが「キーワードorそれ以外」の小規模なCNNによる検出 - 2-Stage: サーバ側大語彙音声認識による検出 (*1) Michaely, Assaf Hurwitz, et al. "Keyword spotting for google assistant with contextual speech recognition." 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). IEEE, 2017. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 32
ICASSP2019動向
End-to-End音声認識がとにかく増えた、、 個人的な印象ですが… ・ E2E ASRの未知ドメインの強化として、 TTSを活用した学習が増加 ・ 多言語ASR, Code SwitchingがE2E応用 ・ NNアーキテクチャとしてSelf-Attentionの 利用が増えてきた ・ Googleのスマホ上でE2E ASRをリアルタイムで動作 …が物凄い人の集まりようで、 今後、E2Eが実用研究が増えそう (※)Speech Processing分野で”End-to-End”の検索数 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 34
BYTES ARE ALL YOU NEED: END-TO-END MULTILINGUAL SPEECH RECOGNITION AND SYNTHESIS WITH BYTES 多言語対応End-to-End音声認識または音声合成のため、 Audio-to-Byte(A2B)とByte-to-Audio(B2A)を提案 ・B2A: LAS-based, 従来の文字出力より改善 ・A2B: Tacotoron-based, 従来文字入力と同等かそれ以上のMOS値を達成 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 35
TTSを活用したE2E ASRの学習 ・ SLP-L2.1: A SPELLING CORRECTION MODEL FOR END-TO-END SPEECH RECOGNITION Jinxi Guo, University of California, Los Angeles, United States; Tara N. Sainath, Ron J. Weiss, Google, Inc., United States - TTSで生成した音声を認識させた後、認識誤りの仮説を正すNNモデルを学習 - ベースラインLASより相対18.6%の改善 ・ SLP-P5.4: SEMI-SUPERVISED END-TO-END SPEECH RECOGNITION USING TEXT-TO-SPEECH AND AUTOENCODERS Shigeki Karita, et al., NTT Communication Science Laboratories, Japan - unpairの音声とテキストからASRとTTSでスイッチしたAutoencoderを構築 - pairデータで学習したencoderとAutoencoderのencoderのそれぞれのLossが近くなるように学習 - WERで20.6%から18.0%まで改善 ・ SLP-P7.6: CYCLE-CONSISTENCY TRAINING FOR END-TO-END SPEECH RECOGNITION Takaaki Hori,et al., Mitsubishi Electric Research Laboratories (MERL) - TTS Tactoron2-basedでASRのencoderを予測Encoder(TTE)を構築 - TTEからASR EncoderにBackpropを直接するためCycle-consistency lossを使用 - 100hoursペアデータ学習から、360hoursのアンペアデータを使って14.7% WER削減 他にも色々 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 36
Keyword Spottingの発表論文の一例 ・ SLP-P9.1: END-TO-END STREAMING KEYWORD SPOTTING Raziel Alvarez, Hyun Jin Park, Google, Inc., United States - encoder-decoder NNにSVDF layerを採用(右図) - モデルサイズも5倍以上小さくして、60%以上の相対改善。 ・ SLP-P9.5: VOICE TRIGGER DETECTION FROM LVCSR HYPOTHESIS LATTICES USING BIDIRECTIONAL LATTICE RECURRENT NEURAL NETWORKS Woojay Jeon, Leo Liu, Henry Mason, Apple, United States - サーバ側大語彙音声認識によるKWS検出の改善 - “Hey Siri”が”hallucinates”(に誤認識してしまうことがある - 音声認識ラティス情報からKWが含まれるかモデル化(LatticeRNN) - 誤検知データを絶対値で50%以上削減 Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 37
まとめ ・ 音声認識技術 - DNN-HMM Hybrid音声認識の紹介 - End-to-End音声認識の紹介 CTC,Attention, Hybrid CTC/Attention, RNN-T - End-to-End ASRの精度比較の紹介 ・ ウェイクワード検出技術 - Deep KWSの紹介 ・ ICASSP2019動向 - End-to-End音声認識の研究がとにかく増えた (DNN-HMMが少々肩身がせまいと思うほどに、、) Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 38
EOP ご静聴ありがとうございました