1.2K Views
October 14, 23
スライド概要
Pythonで学ぶ音声認識の輪読会第2回の発表スライドです。
2023年10月12日(木) 18:45~
AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!
2023年度後期輪読会#2 2.音声認識の基礎知識 理学部理学科2回生 山下 素数 0
確率の種類 次の状況を例にして、確率の種類について考えてみよう。 袋に黒球が2個、白球が2個入っている。 袋から球を取り、取った球を袋に戻さずにもう一度袋から 球を取る操作を行う。 1回目に取り出す球の色を表す確率変数をx, 2回目に取り出す球の色を表す確率変数をyとする。 1
確率の種類 袋に黒球が2個、白球が2個入っている。 袋から球を取り、取った球を袋に戻さずにもう一度袋から球を取る 操作を行う。 1回目に取り出す球の色を表す確率変数をx, 2回目に取り出す球の色を表す確率変数をyとする。 ①事前確率 ②事後確率 (条件付き確率) 純粋に過去の結果のみ を考慮した確率 例 P(x=黒)=1/2 P(x=白)=1/2 条件が与えられたときに ある事象が起きる確率 例 P(y=黒|x=黒)=1/3 P(y=白|x=黒)=2/3 ③同時確率 ある事象と別の事象 が同時に起こる確率 例 P(x=黒, y=黒)=1/6 P(x=白, y=黒)=1/3 2
確率に関する定理 ⚫ 連鎖律(Chain Rule) 𝑃(𝑥, 𝑦) = 𝑃(𝑥)𝑃(𝑦|𝑥) = 𝑃(𝑦)𝑃(𝑥|𝑦) 2元分割表 ⚫ 計 周辺化(Marginalization) 𝑃 𝑥, 𝑦 = 𝑃(𝑥) marginalize 𝑦 計 ベイズの定理(Bayes Theorem) 𝑃 𝑥 𝑦 𝑃(𝑦) 𝑃 𝑦𝑥 = 𝑃(𝑥) 条件付き確率の定義を書き忘れていたので、書いておきます。 𝑃(𝑥, 𝑦) 𝑃 𝑦𝑥 = 𝑃(𝑥) ⚫ 3
ベイズの定理の応用 パラメータθで表せるモデルとデータDが与えられている。 パラメータθをどのように最適化すればよいのか? ⚫ 最尤推定 P(D|θ)を最大化するようにθを選ぶ データ数が少ないときに信用できない。 例えば、 さいころを2回振って1が2回出たからと言って常に1が出るのか?? ⚫ MAP推定 P(θ|D)を最大化するようにθを選ぶ。 ベイズの定理より、𝑃 θ 𝐷 = 𝑃(𝐷|θ)𝑃(θ) で、P(D)はθに依らないので、 𝑃(𝐷) P(D|θ)P(θ)を最大化するようにθを取る。(P(θ)は事前分布で人間が決めておく) ⚫ ベイズ推定 θを一つ選ぶのではなくてP(θ|D)の分布を求める。 これによりパラメータθに対する自信度も分かる。 4
音響モデルと言語モデル 入力された音声の時系列データの確率変数をxとする。 出力されるテキスト列の確率変数をw(認識仮説と呼ぶ)とすると、 音声xが入力されたという条件のもとで 最も確率が高いテキスト列𝑤は、ベイズの定理より ෝ 𝑃 𝑥𝑤 𝑃 𝑤 𝑤 ෝ =argmax𝑤 𝑃 𝑤 𝑥 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑤 𝑃 𝑥 P(x)はwに依存しないので、 𝑤=𝑎𝑟𝑔𝑚𝑎𝑥 ෝ 𝑤 𝑃 𝑥 𝑤 𝑃(𝑤) P(x|w)を音響モデルと呼ぶ。 P(w)を言語モデルと呼ぶ。 5
音響モデルの分解 音響モデルP(x|w)は音素モデルP(x|p)と発音辞書P(p|w)に分けら れる。 ただし、pは音素の列を表す確率変数。音素は音の最小単位であっ た。 𝑃 𝑥 𝑤 = 𝑃 𝑥, 𝑝 𝑤 = 𝑃 𝑥 𝑝 𝑃(𝑝|𝑤) 𝑝 𝑝 総和ではなく、最も確率の高い発音のみで近似することが多い。 𝑃 𝑥 𝑤 ~𝑎𝑟𝑔𝑚𝑎𝑥𝑝 𝑃 𝑥 𝑝 𝑃 𝑝 𝑤 以上から、最も確率が高いテキスト列は 𝑤~𝑎𝑟𝑔𝑚𝑎𝑥 ෝ 𝑤 𝑎𝑟𝑔𝑚𝑎𝑥𝑝 𝑃 𝑥|𝑝 𝑃 𝑝 𝑤 𝑃(𝑤) 6
音声認識のタスク 孤立単語認識 1単語だけ発話された単語を認識 1単語だけなのでP(w)は一様分布だと仮定できる。 𝑤=𝑎𝑟𝑔𝑚𝑎𝑥 ෝ 𝑤 𝑃 𝑥 𝑤 𝑃 𝑤 ~𝑎𝑟𝑔𝑚𝑎𝑥𝑤 𝑎𝑟𝑔𝑚𝑎𝑥𝑝 𝑃 𝑥|𝑝 𝑃 𝑝 𝑤 ⚫ 連続音声認識 発話された文章を認識 𝑤 ෝ = 𝑎𝑟𝑔𝑚𝑎𝑥𝑤 𝑎𝑟𝑔𝑚𝑎𝑥𝑝 𝑃 𝑥|𝑝 𝑃 𝑝 𝑤 𝑃(𝑤) ⚫ 7
データセットの分け方 学 習 評 価 学習データ モデルの内部パラメータのチューニング 開発データ モデルのハイパーパラメータのチューニング 評価データ 実運用の性能をシミュレート 8
まとめ まとめ1 まとめ2 まとめ3 確率の事前確率、事後確率、同時確率や連鎖律、周辺化、ベイズの定理について学 んだ 音声認識モデルは音響モデルと言語モデルで構成され、音響モデルは音素モデルと 発音辞書に分離することができる データセットは学習データ、開発データ、評価データに分ける 9
10