125 Views
August 26, 23
スライド概要
機械学習や音声認識に関する書籍を執筆しています。
8. 音声の認識:言語モデル • 8.1 文法記述による言語モデル • 8.2 統計的言語モデルの考え方 • 8.3 統計的言語モデルの作り方 • ニューラルネットワーク言語モデル • 荒木雅弘 :『イラストで学ぶ音声認識』 (講談社, 2015年) • サポートページ
8.1 文法記述による言語モデル • 文法記述を言語モデルとみなす • 規則に従う単語列であれば P(W) > 0 、そうでなければ P(W) = 0 として、 認識対象の単語列を限定 • 文法記述の例
8.1 文法記述による言語モデル • 文法の種類 • 文脈自由文法 • 文法規則の左辺は非終端記号一つ • 右辺は「終端記号または非終端記号」の列 • おおよそ自然言語の文法が記述可能 • 正規文法 • 文法規則の左辺は非終端記号一つ • 右辺は「終端記号」、「終端記号+非終端記号」、「空文字列」のいずれか • おおよそ文節レベルの文法が記述可能 • 典型的な音声対話システムの文法は、正規文法の範囲内で記述可能
8.2 統計的言語モデルの考え方 • 統計的言語モデル • P(W) = P(w1,...,wn) の値を言語統計から求める • 条件付き確率への展開 • N-グラム言語モデル • 長い履歴を持つ条件付き確率の値の推定は難しい • 履歴を過去N-1単語で近似
8.2 統計的言語モデルの考え方
8.3 統計的言語モデルの作り方 1. コーパスを準備する 大量の電子化された文章(新聞記事、webページなど)を集める 2. コーパスを単語に区切る 形態素解析処理 3. 条件付き確率を求める 確率の推定値が0にならないよう工夫したうえで P(wk | wk-N+1,...,wk-1) を求める
8.3 統計的言語モデルの作り方 • N-グラムを最尤推定するときの問題点 • 例)2-グラムの単純な最尤推定 C(W): Wの出現回数 • コーパス中に wi-1 wi が1度も出現しなければ、この値は0 • 単語列中に値0の2-グラムが1つでもあれば、全体の確率が0 • バックオフスムージング • 最尤推定したN-グラムのうち、確率0でないものから少しずつ値を削り、 確率0のものに分配する
ニューラルネットワーク言語モデル • フィードフォワード型 • 過去N単語から次単語の確率分布を求める
ニューラルネットワーク言語モデル • リカレント型 • フィードバックで仮想的にすべての履歴を表現