207 Views
August 26, 23
スライド概要
機械学習や音声認識に関する書籍を執筆しています。
10. 音声の認識:WFST の演算 10.1 WFST の合成演算 10.2 決定化 10.3 重み移動 10.4 最小化 • 荒木雅弘 :『イラストで学ぶ音声認識』 (講談社, 2015年) • サポートページ
WFSTによるデコードのアイディア 1. 確率モデルのWFSTへの変換 • 音声認識に用いる確率モデル(HMM、単語辞書、言語モデル)はWFST で表現可能 2. WFSTの合成 • 記号列Aを記号列Bに変換するWFST1と、記号列Bを記号列Cに変換する WFST2を合成すると、記号列Aを記号列Cに変換するWFSTになる 3. 最適化 • WFSTには、FSAと同様、決定化・最小化のアルゴリズムが存在する
10.1 WFST の合成演算 • FSTの合成 • 2つのFST T1, T2において、 T1 の出力が T2 の入力となるとき、合成し て T1 T2 ができる ○
10.1 WFST の合成演算 • WFSTの合成における重みの扱い • 重みが確率値の場合、通常の合成では掛け算をおこなう • しかし音声認識における探索では、確率の対数の負数をとった値に対 してビタビアルゴリズムを適用する • すなわち、確率の掛け算は足し算に、独立な確率の和は最小値演算に なる • 乗法演算が足し算、加法演算が最小値となる構造をTropical半環とよぶ。 Tropical半環は通常の確率演算と同じ構造を持っているので、この構造 でWFSTの合成をおこなうことができる
10.1 WFST の合成演算
10.2 決定化 • 単純に合成したWFSTは多くの非決定性をもつ → 探索の効率化のために、遷移を決定性に変換
10.3 重み移動 • 前方の状態への重みの移動 → ビームサーチで残すべき候補を適切に判定できる → 探索の高精度化
10.4 最小化 • WFSTの最小化手順 • 等価な状態を集合分割によって求める → 探索の高速化