イラストで学ぶ音声認識 改訂第2版 6. 音声からの特徴抽出

>100 Views

June 05, 25

スライド概要

profile-image

機械学習・音声認識・プログラミングに関する書籍を執筆しています。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

イラストで学ぶ音声認識 改訂第2版 6. 音声からの特徴抽出 6.1 特徴抽出の手順 6.2 音声信号のデジタル化 6.3 人の聴覚をまねて:スペクトル分析 6.4 もうひと工夫:ケプストラム分析 6.5 雑音の除去 6.6 特徴抽出処理におけるブレークスルー 1

2.

6.1 特徴抽出の手順 音声生成過程の線形分離等価回路モデル 2

3.

6.1 特徴抽出の手順 音声の特徴量を求める手順 3

4.

6.2 音声信号のデジタル化 波のデジタル化 標本化:時間軸方向の分割 標本化定理により,標本化の周波数は信号の最高周波数の2倍以上 量子化:強度方向の分割 人間の聴覚を考慮して16ビット程度で量子化 4

5.

6.3 人の聴覚をまねて -スペクトル分析 連続信号の分割:フレーム化 5

6.

6.3 人の聴覚をまねて -スペクトル分析 スペクトル分析 フレームとして切り出した音声信号をフーリエ変換し,パワースペクトルを 計算 低周波数ほど周波数の違いに敏感という人間の知覚を反映したメルフィルタ バンク処理を行う 6

7.

6.4 もうひと工夫 -ケプストラム分析 メルスペクトルの概形を抽出 スペクトルを離散コサイン変換してケプストラムを計算 ケプストラムの低次情報がスペクトル概形に相当 → MFCC (mel-frequency cepstral coefficient) 7

8.

6.4 もうひと工夫 -ケプストラム分析 変化量の抽出 MFCC : 前後2フレームのMFCCから傾きを抽出 MFCC : MFCCの変化量を抽出 特徴量としての音声のパワー 単純なパワー(声の大きさ)は特徴としては不適 パワー, パワーは有効な特徴 8

9.

6.5 雑音の除去 雑音の種類 加法性と乗法性 雑音除去の方法 CMS(cepstrum mean subtraction) 発話全体のケプストラム 平均を求め,各フレーム から引く 9

10.

6.6 特徴抽出処理におけるブレークスルー 出力単語列 HMM HMMの状態 End-to-End ... 音声認識 DNN ... DNN を用いた音声認識では,音声 信号のパワースペクトルに対してメ ル帯域化と対数化を行ったメルスペ クトログラムなどを入力とする 入力を原信号に近いものにし て,入力側に近い階層で特徴抽 出処理も学習の一部として組み 入れる 1次元畳み込みで,局所的情報 の時系列に変換する場合もある HMMを音響モデルとす る統計的音声認識へ 数フレーム メルスペクトログラム 1次元畳み込み 1次元畳み込み 1次元畳み込み 10