3.6K Views
September 30, 23
スライド概要
Pythonで学ぶ音声認識の輪読会第1回の発表スライドです。
2023年10月5日(木) 18:30~
AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!
2023年度後期輪読会#1 1. 音声認識とは? 京都大学 理学部 地球物理学分野 松田 拓巳 0
1. 音声認識とは? 目次 1. 音声認識とは?どんなことに使える? 2. 音声を認識するとは?-音声認識のしくみ- 3. 本書の目的と構成 1
1.1. 音声認識とは?どんなことに使える? 音声認識の位置づけ ⚫ 音声認識とは、音声信号から発話内容を認識する技術のこと ⚫ 音源分離や音声認識で誤りが混入すると、以降の処理にも悪影響 図1-1はテキストから引用 2
1. 音声認識とは? 目次 1. 音声認識とは?どんなことに使える? 2. 音声を認識するとは?-音声認識のしくみ- 3. 本書の目的と構成 3
1.2. 音声を認識するとは?-音声認識のしくみ- 耳の構造 ⚫ ⚫ 鼓膜の振動が耳小骨で増幅される 基底膜上で振動が起こる位置は、 音の高さによって異なる → 音を各周波数成分に分解 低い音 高い音 共鳴 共鳴 図1-2はテキストから引用 4
1.2. 音声を認識するとは?-音声認識のしくみ- 機械に音声を認識させる前に ⚫ 音の振動信号を直接モデルに入力するわけではない • 特徴量抽出を行う必要がある • 例:フーリエ変換(周波数成分に分解) 図1-3はテキストから引用 5
1.2. 音声を認識するとは?-音声認識のしくみ- 認識フェーズ ⚫ 音響モデル • • • ⚫ 発音辞書 • ⚫ 音声特徴量 → 音素列 隠れマルコフモデルと混合正規 分布の組み合わせ ニューラルネットワーク 音素列 → 単語の候補 言語モデル • • • 単語の候補 → 1単語 N-gramモデル RNN, Transformer? 図1-3,図1-4はテキストから引用 6
1.2. 音声を認識するとは?-音声認識のしくみ- 最近は End-to-End モデル! ⚫ 「音響モデル」「発音辞書」「言語モデル」を1つのNNで表現 • これを作ることが本の目標 7
1. 音声認識とは? 目次 1. 音声認識とは?どんなことに使える? 2. 音声を認識するとは?-音声認識のしくみ- 3. 本書の目的と構成 8
1.3. 本書の目的と構成 この本の目標 3つに分ける手法 ⚫ End-to-Endな手法 実装が複雑なので実装はしない ⚫ 実装は比較的簡単なのでこれを作る 特にデコーダ(3つをうまく統合して認 識結果を出力する部分)がムズい ⚫ ⚫ 従来手法の問題点やお気持ちを理 解することは重要なので解説 詳細は↓の2冊を参照 https://shop.ohmsha.co.jp/shopdetail/000000004726/ https://www.coronasha.co.jp/np/isbn/9784339011395/ 9
1.3. 本書の目的と構成 各章の内容 基礎 11ページ 1人 ⚫ 特徴抽出 古典的 手法 DeepLearning 以前の手法 現在主流の 手法 End-to-End 61ページ 17ページ 93ページ 67ページ 72ページ 3人 1人 3人 3人 4人 1人あたりだいたい10~20ページ程度 ※実装部分はコードが書いてあるのでページ数が多い場合もある ⚫ 余裕のある人は、自分で調べて補足してくれるとGood! 10
1.3. 本書の目的と構成 2章:音声認識の基礎知識 基礎 ⚫ ⚫ 特徴抽出 古典的 手法 DeepLearning 以前の手法 現在主流の 手法 End-to-End 音声認識を数式で理解する章 数式といっても、簡単な確率の計算 キーワード:条件付き確率・ベイズの定理・周辺化 11
1.3. 本書の目的と構成 3章:音声処理の基礎と特徴量抽出 基礎 ⚫ 特徴抽出 古典的 手法 DeepLearning 以前の手法 現在主流の 手法 End-to-End 音声データ → ファイルの読み込み、ファイルの中身、サンプリング周波数など ⚫ ⚫ ⚫ ⚫ フーリエ変換 スペクトログラム 対数メルフィルタバンク特徴量 メル周波数ケプストラム特徴量 ※ は、1人分の発表範囲を表す。 12
1.3. 本書の目的と構成 4章:音声認識の初歩 ― DPマッチング 基礎 ⚫ ⚫ 特徴抽出 古典的 手法 DeepLearning 以前の手法 現在主流の 手法 End-to-End DP=Dynamic Programming=動的計画法 アライメントを推定しながら距離を計算する方法 あき あ ー き この2つの音声の間の距離(類似度)を測りたい → 長さが一致しないのでこのままでは測れない →2音声間の対応関係(アライメント)を推定する必要 13
1.3. 本書の目的と構成 5章:GMM-HMMによる音声認識 基礎 ⚫ ⚫ ⚫ ⚫ ⚫ 特徴抽出 古典的 手法 DeepLearning 以前の手法 現在主流の 手法 End-to-End GMM=Gaussian Mixture Model マッチングではなく、確率で考える HMM=Hidden Marcov Model アライメントを推定しながら確率を考える GMM-HMMの実装 14
1.3. 本書の目的と構成 6章:DNN-HMMによる音声認識 基礎 ⚫ ⚫ ⚫ ⚫ ⚫ 特徴抽出 古典的 手法 DeepLearning 以前の手法 現在主流の 手法 End-to-End DNN=Deep Neural Network GMMよりも表現力が高いモデル DNNをHMMに組み込むには? GMM-HMMやDNN-HMMで大語彙連続音声認識(補足) DNN-HMMの実装 15
1.3. 本書の目的と構成 7章:End-to-Endモデルによる連続音声認識 基礎 ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ 特徴抽出 古典的 手法 DeepLearning 以前の手法 現在主流の 手法 End-to-End RNN:時系列を扱うニューラルネットワーク CTC:HMMを使わずにDNNのみでモデルを作る CTCの実装 Attention encoder-decoderモデル その他のテクニックやモデルの紹介 Attentionモデルの実装 16
17