フリーソフトでつくる音声認識システム(第2版) 第1章

885 Views

July 31, 23

#前処理 #特徴抽出 #パターン認識 #最近傍決定法 #識別 #デジタル信号処理

スライド概要

荒木雅弘

@MasahiroAraki

スライド一覧

機械学習・音声認識・プログラミングに関する書籍を執筆しています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

chatgpt

荒木雅弘 4.4K

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

chatgpt デザイン思考

荒木雅弘 4.1K

プログラミング〈新〉作法 2. C言語からはじめよう

プログラミング

荒木雅弘 3.6K

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

chatgpt

荒木雅弘 3.3K

プログラミング〈新〉作法 1. はじめに

プログラミング

荒木雅弘 2.4K

プログラミング〈新〉作法 3. プログラムが動く仕組み

プログラミング

荒木雅弘 2.4K

各ページのテキスト

1. パターン認識って何？ 1.1 パターン認識とは 1.2 パターン認識システムの構成 1.3 前処理部 1.4 特徴抽出部 1.5 識別部と識別辞書荒木雅弘: 『フリーソフトでつくる音声認識システム（第2版）』（森北出版，2017年）スライドとJupyter notebook サポートページ

1.1 パターン認識とは (1/2) パターン人間や動物が知覚できる実世界の画像・音声・匂いなどの情報パターン認識観測されたパターンを予め定められた複数の概念（クラス）のうちの一つに対応させる処理パターン認識の例文字認識画像 → 文字音声認識音声波形 → 文字 or 単語心電図の分析波形 → 病気の兆候

1.1 パターン認識とは (2/2) さまざまなパターン認識システム

1.2 パターン認識システムの構成入出力とモジュール構成識別に役⽴つ情報をベクトルの形で抽出前処理部⼊⼒（パターン）信号のデジタル化とノイズ除去特徴抽出部⼊⼒されたベクトルと識別辞書の項⽬を⽐較し、出⼒を決定識別部あ出⼒（クラス）識別辞書

1.3 前処理部前処理部の入出力入力：アナログ信号出力：デジタル信号アナログ信号デジタル信号 0111000011110... 変換ただし、単純なAD変換ではない識別に必要な情報が落ちていない精度でかつ、後の処理が容易な容量で信号処理レベルで可能なノイズ除去も行う

1.4 特徴抽出部 (1/2) 特徴抽出部の入出力入力：デジタル信号出力：パターンの特徴を表す d 次元ベクトル x = (x1 , x2 , … , xd )T 特徴抽出処理パターンの変動に影響されにくい特徴を選ぶ例）文字認識識別に役立つ特徴：線の本数・傾き・曲率 etc. パターンの変動：文字の大きさ・位置・色 etc. 抽出すべき特徴は認識対象によって異なる例）音声認識と話者認識 T : 転置記号

1.4 特徴抽出部 (2/2) 特徴空間特徴ベクトルによって張られる d 次元空間同一クラスに属するパターンは、特徴空間上でクラスタ（塊）を形成する

1.5 識別部と識別辞書 1.5.1 基本的な識別手法 (1/3) 識別部の入出力入力：特徴ベクトル出力：識別結果最近傍決定則（nearest neighbor (NN)法）識別辞書に各クラスのプロトタイプ（お手本）を格納入力された特徴ベクトルともっとも近いプロトタイプの属するクラスに識別

1.5.1 基本的な識別手法 (2/3) 特徴空間における各クラスのプロトタイプ（＝識別辞書の中身） : 各クラスのプロトタイプ

10.

1.5.1 基本的な識別手法 (3/3) 最近傍決定則（NN法）による識別距離を計算して入力 x に対してもっとも近いプロトタイプ P i を探すもっとも近いプロトタイプ : 識別したい⼊⼒データ

11.

1.5.2 識別辞書の中身 (1/3) NN法と線形識別面 2つのクラスの分岐点は、それぞれのプロトタイプから等距離にある点の集合 → 特徴空間が2次元ならばプロトタイプを結ぶ線分の垂直二等分線 → 特徴空間が d 次元ならば垂直二等分 d − 1 次元超平面これらは線形識別面とよばれる識別が非線形な方法なら識別面は非線形曲面識別面は「正解クラスラベル」付きの「学習データ」から学習によって決定する

12.

1.5.2 識別辞書の中身 (2/3) プロトタイプと識別面の関係 : 学習データ (a) 2次元の2クラス識別問題 : プロトタイプ (b) 正しく設定された識別⾯

13.

1.5.2 識別辞書の中身 (3/3) 間違った識別面の例学習データに基づいてプロトタイプの位置を修正この領域のデータはのデータなのにに識別されてしまう

14.

まとめパターン認識とは観測される実世界の信号を既知のクラスに分類することパターン認識システムの構成パイプライン状に前処理、特徴抽出、識別を行う構成は識別対象に依存しない構成要素の概要前処理部： AD変換＋ノイズ除去特徴抽出部：情報圧縮識別部：学習によって得られた識別面に基づいて分類 Jupyter notebook

https://github.com/MasahiroAraki/SpeechRecognition/blob/master/Python/chap01.ipynb

フリーソフトでつくる音声認識システム(第2版) 第1章

荒木 雅弘

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

プログラミング〈新〉作法 2. C言語からはじめよう

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

プログラミング〈新〉作法 1. はじめに

プログラミング〈新〉作法 3. プログラムが動く仕組み

各ページのテキスト

荒木雅弘