>100 Views
December 21, 15
スライド概要
http://yahoo-ds-event.connpass.com/event/21903/
2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp
データサイエンスワークショップ ヤフー⾳音声認識識のご紹介 ヤフー株式会社 D&Sサイエンス本部サイエンス3部 三宅宅 純平 1
⾃自⼰己紹介 • 経歴 2009年年4⽉月 新卒⼊入社。⾃自然⾔言語処理理技術の開発。 (読み獲得、レコメンド、クエリセグメンテーション、Hadoop) 2011年年1⽉月~∼現在 ・⾳音声認識識PJの発⾜足と共にチーム異異動し、⾳音声認識識の開発 ・Yahoo! JAPAN研究所とサイエンス本部の共同開発PJ • 専⾨門技術領領域 ⾳音声認識識アルゴリズム, ⾔言語モデル, 単語分割, C/C++, Python, Perl サーバ開発(C/C++), 最近だとやはり深層学習 Yahoo!JAPAN Confidential 2
ヤフー⽇日本語⾳音声認識識 YJVOICE iOS Andorid 「Yahoo! JAPAN」アプリなど18のアプリ・ウィジェットに導⼊入(5/19現在)
ヤフー⽇日本語⾳音声認識識 YJVOICEについて 最近のヤフー⾳音声認識識のリリース • DNNベースの音声認識に切替(5/19) 音声区間検出と音響モデルの2箇所にDNNを実装 雑音環境下において大幅精度改善 大規模な音声データで大規模なNNを学習 出典:GTC Japan 2015 ヤフー研究員 磯氏の講演より • 音声検索アプリにKeyword Spotting機能の追加(9/25) 所謂「OK,Google」「Hey,Siri」の機能 クライアント側で常時、音声認識が起動 おんせー けんさく!
DNN導⼊入前後で何が変わったか?ー⾳音響モデルー 5
DNN導⼊入前後で何が変わったか?ー⾳音響モデルー ⾳音声認識識の全体概要 ka 1 / 0 to 2 6
⾳音響モデルとは (Hz) 3000 ⼤大量量の⾳音声データから ⾳音素の周波数パターンを モデル化(確率率率化) ⼊入⼒力力⾳音声 F2 ⾳音素( y-‐‑‒a+f ) イメージ例例 /e/ /i/ /a/ 2000 1000 0 s1 成⼈人⼥女女性 成⼈人男性 P(x|s1) P(x|s2) s2 s3 P(x|s3) x /u/ x x 実際には各音素毎に3状態HMMで表現。 /o/ 500 F1 1000(Hz) ⾳音響モデル 各状態における出力確率がGMMからDNNに変更 どの⾳音素に尤も近いか ka ⼊入⼒力力⾳音声(の分析量量)と ⾳音響モデルを照合 ↑学習 ↓分類 to 7
⾳音声の特徴量量について 量子化(Bit Rate) I 0 標本化(Sampling Rate) 音声信号 ディジタル化 m1 ・ mj ・ mp 8 周 MEL メル帯域化 高域強調 FFT GMM-HMMの特徴量:38次元 ケプストラム領域化 対数化 離散コサイン 変換(DCT) MFCC 正規化 (CMS) ・スペクトル形状 MFCC(12次元) ΔMFCC(12次元) DNN-HMMの特徴量:440次元 ・メルフィルタバンク(メル帯域スペクトル) 現在1フレーム(40次元) 前5フレーム(40次元x5) 後ろ5フレーム(40次元x5) ΔΔMFCC(12次元) ・音声信号の強さ Δパワー(1次元) ΔΔパワー(1次元)
GMMからDNNへ 出力層:約5000状態の音素 約5000状態の事後確率率率を DNNモデル構築 中間層 1024unit, 5layers x どれが尤もらしいか… 特徴量(MFCC)から音素(HMM状態数)の 出力確率を混合正規分布で表現 ⼊入⼒力力層:特徴量量(メルフィルタバンク) 9
最後に 認識識アルゴリズム、クライアントSDK、サーバと多岐に渡る 開発をしているので、興味がある⽅方はお声がけください! 全体概要 Client(iOS/Android) App(表⽰示) 通信制御部(ASRプロトコル) Server ⾳音声データ (圧縮⾳音声) 通信制御部(ASRプロトコル) ⾳音声圧縮処理理 (Speex,Flac) クライアント ⾳音声取り込み (OS/ドライバ) ⾳音響モデル ⾔言語モデル 認識識エンジン部 (⾳音声検出/デコード) 認識識結果 ⾳音声検出をサーバで Yahoo!JAPAN Confidential デコーダ: ⇒WFSTデコーダによるデコード 10