212 Views
August 26, 23
スライド概要
機械学習や音声認識に関する書籍を執筆しています。
6. 音声の認識:基本的な音響モデル 6.1 音響モデルの単位 6.2 隠れマルコフモデルとは 6.3 隠れマルコフモデルの確率計算 6.4 状態系列の推定 6.5 パラメータの学習 • 荒木雅弘 :『イラストで学ぶ音声認識』 (講談社, 2015年) • サポートページ
6.1 音響モデルの単位 • 音響モデル p(特徴ベクトル系列|単語列) の条件部 • 単語列(=文) • 可能な文が列挙できる小さなタスクでは有効 • 数万語の語彙が必要なディクテーションでは、可能な文の数は膨大になるので、 実質的にモデル化は不可能 • 単語 • 新しい単語がタスクに追加されるごとに、モデルを作成しなければならない • 音素 • 単語辞書を音素系列で記述することで、大語彙に対応可能 • 前後の音素情報を組み込んだトライフォンが主流
6.2 隠れマルコフモデルとは • 音響モデルのためのオートマトンの構造 • 各状態で確率的にベクトルを出力し、確率的に状態遷移を行うムーア型 オートマトン • 状態遷移が一方向に限定されているleft-to-right型の構造をもつマルコ フモデルと解釈できる
6.2 隠れマルコフモデルとは • 「隠れ」マルコフモデル • どの状態からどのベクトルが出力されたかという情報が隠れている
6.3 隠れマルコフモデルの確率計算 • 系列の出力確率 • 例)図6.4において x = x1 x2 x3 x4 x5, 状態遷移S1S1S1S2S2E の場合 • すべての可能な状態遷移について求め、和を計算 • トレリス計算による効率化(前向きアルゴリズム) • 時刻 t 、状態 i における前向き確率 αt(i) を、入力の時間単位で順次計算 (mはHMMの状態数)
6.3 隠れマルコフモデルの確率計算
6.4 状態系列の推定 • ビタビアルゴリズム • 前向きアルゴリズムにおける系列の和 の計算を、最大値演算に置き換える • 最大値を与えた経路を保存しておき、 最終状態から逆にたどることで、最も 確率の高い経路が得られる
6.5 パラメータの学習 • 状態遷移系列が既知の場合のパラメータ推定 • 単純な最尤推定
6.5 パラメータの学習 • 状態遷移系列の確率が既知の場合のパラメータ推定 • それぞれの最尤推定結果を重み付きでたし合わせる
6.5 パラメータの学習 • 状態遷移系列が未知の場合のパラメータ推定 • EMアルゴリズム 初期パラメータが 多少でたらめでも、 学習データの値の 偏りによって、 HMMのパラメー タが徐々にデータ の統計的性質を反 映させてゆくプロ セスとみなせる。