イラストで学ぶ音声認識 6章

276 Views

August 26, 23

#音声認識 #隠れマルコフモデル #音響モデル #ビタビアルゴリズム #パラメータ学習

スライド概要

荒木雅弘

@MasahiroAraki

スライド一覧

機械学習・音声認識・プログラミングに関する書籍を執筆しています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 0.94MB)

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

chatgpt

荒木雅弘 4K

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

chatgpt デザイン思考

荒木雅弘 4K

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

chatgpt

荒木雅弘 3K

プログラミング〈新〉作法 2. C言語からはじめよう

プログラミング

荒木雅弘 2.9K

プログラミング〈新〉作法 1. はじめに

プログラミング

荒木雅弘 2.1K

プログラミング〈新〉作法 3. プログラムが動く仕組み

プログラミング

荒木雅弘 2K

各ページのテキスト

6. 音声の認識：基本的な音響モデル 6.1 音響モデルの単位 6.2 隠れマルコフモデルとは 6.3 隠れマルコフモデルの確率計算 6.4 状態系列の推定 6.5 パラメータの学習 • 荒木雅弘 :『イラストで学ぶ音声認識』（講談社, 2015年） • サポートページ

https://masahiroaraki.github.io/GuideToASR/

6.1 音響モデルの単位 • 音響モデル p(特徴ベクトル系列|単語列) の条件部 • 単語列（=文） • 可能な文が列挙できる小さなタスクでは有効 • 数万語の語彙が必要なディクテーションでは、可能な文の数は膨大になるので、実質的にモデル化は不可能 • 単語 • 新しい単語がタスクに追加されるごとに、モデルを作成しなければならない • 音素 • 単語辞書を音素系列で記述することで、大語彙に対応可能 • 前後の音素情報を組み込んだトライフォンが主流

6.2 隠れマルコフモデルとは • 音響モデルのためのオートマトンの構造 • 各状態で確率的にベクトルを出力し、確率的に状態遷移を行うムーア型オートマトン • 状態遷移が一方向に限定されているleft-to-right型の構造をもつマルコフモデルと解釈できる

6.2 隠れマルコフモデルとは • 「隠れ」マルコフモデル • どの状態からどのベクトルが出力されたかという情報が隠れている

6.3 隠れマルコフモデルの確率計算 • 系列の出力確率 • 例）図6.4において x = x1 x2 x3 x4 x5, 状態遷移S1S1S1S2S2E の場合 • すべての可能な状態遷移について求め、和を計算 • トレリス計算による効率化（前向きアルゴリズム） • 時刻 t 、状態 i における前向き確率 αt(i) を、入力の時間単位で順次計算（mはHMMの状態数）

6.3 隠れマルコフモデルの確率計算

6.4 状態系列の推定 • ビタビアルゴリズム • 前向きアルゴリズムにおける系列の和の計算を、最大値演算に置き換える • 最大値を与えた経路を保存しておき、最終状態から逆にたどることで、最も確率の高い経路が得られる

6.5 パラメータの学習 • 状態遷移系列が既知の場合のパラメータ推定 • 単純な最尤推定

6.5 パラメータの学習 • 状態遷移系列の確率が既知の場合のパラメータ推定 • それぞれの最尤推定結果を重み付きでたし合わせる

10.

6.5 パラメータの学習 • 状態遷移系列が未知の場合のパラメータ推定 • EMアルゴリズム初期パラメータが多少でたらめでも、学習データの値の偏りによって、 HMMのパラメータが徐々にデータの統計的性質を反映させてゆくプロセスとみなせる。

イラストで学ぶ音声認識 6章

荒木 雅弘

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

プログラミング〈新〉作法 2. C言語からはじめよう

プログラミング〈新〉作法 1. はじめに

プログラミング〈新〉作法 3. プログラムが動く仕組み

各ページのテキスト

荒木雅弘