366 Views
August 26, 23
スライド概要
機械学習や音声認識に関する書籍を執筆しています。
11. 音声の認識:WFST による音声認識 11.1 11.2 11.3 11.4 11.5 WFSTによる音声認識の概要 音響モデルをWFST に変換する 発音辞書をWFST に変換する 言語モデルをWFST に変換する WFST の探索 • 荒木雅弘 :『イラストで学ぶ音声認識』 (講談社, 2015年) • サポートページ
11.1 WFSTによる音声認識の概要
11.2 音響モデルをWFST に変換する • HMMをWFSTに変換 HMMは 入力を持たない • すべての特徴ベクトル を現す記号 x を入力と して導入 b(x|Si) の値が認識時 までわからないので、 事前に合成ができない
11.2 音響モデルをWFST に変換する • WFSTの分離 認識前に重みが得ら れる(=合成可能) 認識時に重みを計算し、 合成後のWFSTの重みと 組み合わせる
11.3 発音辞書をWFST に変換する • 発音辞書 • 単語表記と発音の関係は、単純に列挙すれば良いので、正規表現で記述 可能 • 実際は、音素列と単語列との対応の曖昧性を除去するために、各単語の 最後にユニークな識別記号を付ける
11.4 言語モデルをWFST に変換する • 言語モデルとして文法を用いた場合 • 通常は正規言語なので、そのままWFSTで表現可能 • N-グラムの場合 • N-1個の単語列を状態とし、N-グラム確率を重みとすることでWFSTで 表現可能
11.4 言語モデルをWFST に変換する • バックオフへの対応 • バックオフ状態を設ける
11.5 WFST の探索 • 合成・最適化後のWFSTをビタビアルゴリズムでビームサーチ