フリーソフトでつくる音声認識システム(第2版) 第1章

720 Views

July 31, 23

スライド概要

profile-image

機械学習や音声認識に関する書籍を執筆しています。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

1. パターン認識って何? 1.1 パターン認識とは 1.2 パターン認識システムの構成 1.3 前処理部 1.4 特徴抽出部 1.5 識別部と識別辞書 荒木雅弘: 『フリーソフトでつくる 音声認識システム(第2版)』(森北 出版,2017年) スライドとJupyter notebook サポートページ

2.

1.1 パターン認識とは (1/2) パターン 人間や動物が知覚できる実世界の画像・音声・匂いなどの情報 パターン認識 観測されたパターンを予め定められた複数の概念(クラス)のうちの一つに対応させる処理 パターン認識の例 文字認識 画像 → 文字 音声認識 音声波形 → 文字 or 単語 心電図の分析 波形 → 病気の兆候

3.

1.1 パターン認識とは (2/2) さまざまなパターン認識システム

4.

1.2 パターン認識システムの構成 入出力とモジュール構成 識別に役⽴つ情報を ベクトルの形で抽出 前処理部 ⼊⼒ (パターン) 信号のデジタル化と ノイズ除去 特徴抽出部 ⼊⼒されたベクトル と識別辞書の項⽬を ⽐較し、出⼒を決定 識別部 あ 出⼒ (クラス) 識別辞書

5.

1.3 前処理部 前処理部の入出力 入力:アナログ信号 出力:デジタル信号 アナログ信号 デジタル信号 0111000011110... 変換 ただし、単純なAD変換ではない 識別に必要な情報が落ちていない精度で かつ、後の処理が容易な容量で 信号処理レベルで可能なノイズ除去も行う

6.

1.4 特徴抽出部 (1/2) 特徴抽出部の入出力 入力:デジタル信号 出力:パターンの特徴を表す d 次元ベクトル x = (x1 , x2 , … , xd )T ​ ​ 特徴抽出処理 パターンの変動に影響されにくい特徴を選ぶ 例)文字認識 識別に役立つ特徴: 線の本数・傾き・曲率 etc. パターンの変動: 文字の大きさ・位置・色 etc. 抽出すべき特徴は認識対象によって異なる 例)音声認識と話者認識 ​ T : 転置記号

7.

1.4 特徴抽出部 (2/2) 特徴空間 特徴ベクトルによって張られる d 次元空間 同一クラスに属するパターンは、特徴空間上でクラスタ(塊)を形成する

8.

1.5 識別部と識別辞書 1.5.1 基本的な識別手法 (1/3) 識別部の入出力 入力:特徴ベクトル 出力:識別結果 最近傍決定則(nearest neighbor (NN)法) 識別辞書に各クラスのプロトタイプ(お手本)を格納 入力された特徴ベクトルともっとも近いプロトタイプの属するクラスに識別

9.

1.5.1 基本的な識別手法 (2/3) 特徴空間における各クラスのプロトタイプ(=識別辞書の中身) : 各クラスのプロトタイプ

10.

1.5.1 基本的な識別手法 (3/3) 最近傍決定則(NN法)による識別 距離を計算して入力 x に対してもっとも近いプロトタイプ P i を探す もっとも近い プロトタイプ : 識別したい⼊⼒データ ​

11.

1.5.2 識別辞書の中身 (1/3) NN法と線形識別面 2つのクラスの分岐点は、それぞれのプロトタイプから等距離にある点の集合 → 特徴空間が2次元ならばプロトタイプを結ぶ線分の垂直二等分線 → 特徴空間が d 次元ならば垂直二等分 d − 1 次元超平面 これらは線形識別面とよばれる 識別が非線形な方法なら 識別面は非線形曲面 識別面は「正解クラスラベル」付きの「学習データ」から学習によって決定する

12.

1.5.2 識別辞書の中身 (2/3) プロトタイプと識別面の関係 : 学習データ (a) 2次元の2クラス識別問題 : プロトタイプ (b) 正しく設定された識別⾯

13.

1.5.2 識別辞書の中身 (3/3) 間違った識別面の例 学習データに基づいてプロトタイプの位置を修正 この領域のデータは のデータなのに に識 別されてしまう

14.

まとめ パターン認識とは 観測される実世界の信号を既知のクラスに分類すること パターン認識システムの構成 パイプライン状に前処理、特徴抽出、識別を行う 構成は識別対象に依存しない 構成要素の概要 前処理部: AD変換+ノイズ除去 特徴抽出部: 情報圧縮 識別部: 学習によって得られた識別面に基づいて分類 Jupyter notebook