375 Views
August 26, 23
スライド概要
機械学習や音声認識に関する書籍を執筆しています。
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去 • 荒木雅弘 :『イラストで学ぶ音声認識』 (講談社, 2015年) • サポートページ
5.1 特徴抽出の手順
5.2 音声信号のデジタル化 • 波のデジタル化 • 標本化:時間軸方向の分割 →標本化定理 • 量子化:強度方向の分割
5.3 人の聴覚をまねて -スペクトル分析 • 連続信号の分割:フレーム化
5.3 人の聴覚をまねて -スペクトル分析 • スペクトル分析 • フレームとして切り出した音声信号をフーリエ変換し、パワースペク トルを計算 • 低周波数ほど周波数の違いに敏感という人間の知覚を反映したメル フィルタバンク処理を行う
5.4 もうひと工夫 -ケプストラム分析 • メルスペクトルの概形を抽出 • 離散コサイン変換でケプストラムを計算 • ケプストラムの低次情報がスペクトル概形に相当 → MFCC (mel-frequency cepstral coefficient)
5.4 もうひと工夫 -ケプストラム分析 • 変化量の抽出 • ΔMFCC: 前後2フレームのMFCCから傾きを抽出 • ΔΔMFCC: ΔMFCCの変化量を抽出 • 特徴量としての音声のパワー • 単純なパワー(声の大きさ)は特徴としては不適 • Δパワー、 Δ Δパワーは有効な特徴
5.5 雑音の除去 • 雑音の種類 • 加法性と乗法性 • 雑音除去の方法 • CMS(cepstrum mean subtraction) • 発話全体のケプストラム平均を求め,各フレームのケプストラムから引く