フリーソフトでつくる音声認識システム(第2版) 第9章

330 Views

August 13, 23

#パターン認識 #分割学習法 #交差確認法 #ハイパーパラメータサーチ #Artificial Intelligence #System Evaluation #Machine Learning #Data Processing #Performance Tuning

スライド概要

荒木雅弘

@MasahiroAraki

スライド一覧

機械学習・音声認識・プログラミングに関する書籍を執筆しています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

chatgpt

荒木雅弘 4.9K

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

chatgpt デザイン思考

荒木雅弘 4.2K

プログラミング〈新〉作法 2. C言語からはじめよう

プログラミング

荒木雅弘 4K

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

chatgpt

荒木雅弘 3.6K

プログラミング〈新〉作法 1. はじめに

プログラミング

荒木雅弘 2.8K

フリーソフトではじめる機械学習入門 (第2版) 第14章

機械学習半教師あり学習

荒木雅弘 2.7K

各ページのテキスト

9. 本当にすごいシステムができたの？認識に必要な情報が落ちていないか前処理部クラスは分離できているか特徴抽出部学習の設定は正しいか識別部 5 識別辞書 9.1 未知データに対する認識率の評価 9.2 システムを調整する方法荒木雅弘: 『フリーソフトでつくる音声認識システム（第2版）』（森北出版，2017年）スライドとJupyter notebook サポートページ

9.1 未知データに対する認識率の評価パターン認識システムの評価学習データに対して識別率100%でも意味がない未知データに対してどれだけの識別率が期待できるかが評価のポイント → どうやって未知データで評価する？

9.1.1 分割学習法手順全データ χ を学習用データ χT と評価用データ χE に分割 χT を用いて識別器を設計し、χE を未知データとみなして識別率を推定全データ学習⽤データ評価⽤データ利点評価が容易欠点学習に用いるデータ数が減るので、識別性能が低く見積もられる学習データの割合を高くすると評価データ数が少なくなり、識別率の推定精度が低くなる

9.1.2 交差確認法 (1/2) 手順 χ を m 個のグループ χ1 , … , χm に分割する 2. 以下の手順を i = 1, … , m について行い、m 個の識別率の平均を推定値とする χi を除いた m − 1 個のグループで学習し、 χi を用いて識別率を算出する 1. 全データ全データ結果 1 結果 2 結果評価⽤データ学習⽤データ平均識別率

9.1.2 交差確認法 (2/2) 利点分割学習法に比べ、識別率の推定精度は高い欠点評価に時間がかかる分割数が少ない場合、分割方法の違いによって評価値が大きくぶれる一つ抜き法要素数が 1 となるように分割する方法時間はかかるが最も信頼できる交差確認法

9.2 システムを調整する方法システムの性能向上のために前処理部、特徴抽出部、識別部のどこに性能低下の原因があるかを探る認識に必要な情報が落ちていないか前処理部クラスは分離できているか特徴抽出部学習の設定は正しいか識別部識別辞書 5

9.2.1 前処理部の確認信号取り込み部のチェックマイクの入力レベル調整やカメラのキャリブレーションが必要自動運転のように識別と動作が連動している場合、突発的な異常入力を検知して、誤動作を防止する機構が必要デジタル化に伴う情報劣化のチェックサンプリング周波数や量子化ビット数が適切かノイズ除去のチェック原信号への影響を確認

9.2.2 特徴空間の評価 (1/7) 次元削減による可視化を通じて評価クラスが適切に分離されているのに認識率が低い場合クラス分布が大きく重なっている場合 → 識別部の設定ミスが疑われる → 特徴抽出部を再設計 → 評価基準が必要

9.2.2 特徴空間の評価 (2/7) クラス内分散・クラス間分散比特徴空間の評価法クラス毎のデータのまとまり具合と、クラス間の離れ具合を評価する尺度同じクラスのデータ同士はなるべく接近し、異なるクラスのデータの塊はなるべく離れているものが高い値を取るようにする

10.

9.2.2 特徴空間の評価 (3/7) クラス内分散 2 σW c 2 σW 1 = ∑ ∑ (x − mi )T (x − mi ) n i=1 x∈χ i クラス間分散 σB2 mi : クラスi(χi )の平均, n : 全データ数 c σB2 1 = ∑ ni (mi − m)T (mi − m) n i=1 クラス内分散・クラス間分散比 m : 全データの平均, ni : クラスiのデータ数 Jσ （大きいほど良い） σB2 Jσ = 2 σW

11.

9.2.2 特徴空間の評価 (4/7) 多クラスのクラス内分散・クラス間分散比分布の重なりを考慮できないので、あまりよい評価尺度とはいえない大きいクラス間分散がよい特徴空間と対応しない例（クラス内分散は同一と仮定） (a) クラス間分散︓⼩ (b) クラス間分散︓⼤

12.

9.2.2 特徴空間の評価 (5/7) ベイズ誤り確率特徴空間上での分布の重なりの度合いを評価例）身長による成人男女の判別一般に同一の特徴が男女両方にあてはまるので、性別を確実に決定することはできない。

13.

9.2.2 特徴空間の評価 (6/7) ベイズ決定則誤識別率を最小にするために事後確率 P (ωi ∣x) が最大となるような ωi を出力する判定方法条件付きベイズ誤り確率: eB (x) x が与えられたときの誤り確率の最小値 2クラス識別問題の場合 eB (x) = min{P (ω1 ∣x), P (ω2 ∣x)}

14.

9.2.2 特徴空間の評価 (7/7) ベイズ誤り確率 eB eB = ∫ eB (x)p(x)dx = ∫ min{P (ω1 ∣x), P (ω2 ∣x)}p(x)dx eB は誤り確率をこれよりは小さくできないという限界、すなわち分布の重なりを表す分布は一般に未知であるため、ベイズ誤り確率を直接計算することは困難 → 学習パターンに基づいてベイズ誤り確率を間接的に推定近似的な計算 : 1-NN法の誤り確率 eN との関係 eB ≤ eN ≤ 2eB （eN はベイズ誤り確率の2倍を超えない）

15.

9.2.3 識別部の調整 (1/5) パラメータ : 学習可能識別関数の重みニューラルネットワークの結合の重み SVMの α ハイパーパラメータ : 学習結果によって調整識別関数の次数ニューラルネットワークの層数や隠れ層のユニット数 SVM 多項式カーネルの次数

16.

9.2.3 識別部の調整 (2/5) 学習過程に影響を与えるパラメータ例）ニューラルネットワークの学習係数、EMアルゴリズムの収束判定に用いる値設定値が不適切な場合、不必要に多くの時間がかかったり、学習が途中で終わったりする適切な値の設定は機械学習の know-how 特徴を標準化することによって、ある程度は経験的に設定可能学習結果に影響を与えるパラメータ（= ハイパーパラメータ）モデルの複雑さに連続的に影響を与える → 性能に直結する例）SVMの多項式カーネルの次数、ガウシアンカーネルの半径いくつかの異なる値で性能を評価する必要がある γ

17.

9.2.3 識別部の調整 (3/5) ハイパーパラメータ λ の決定手順未知データに対する誤識別率 eλ が低い λ が望ましい分割学習法や交差確認法を用いて未知データに対する eλ を推定するハイパーパラメータの性質複雑な分布を示す学習データに対しては、複雑なモデルにする必要があるモデルを複雑にしても、あるところで識別率が上がらなくなる（下がることもある）識別率学習⽤データ評価⽤データ単純ハイパーパラメータ複雑

18.

9.2.3 識別部の調整 (4/5) ハイパーパラメータが複数ある場合例）SVMの多項式カーネルの次数 d と誤りの重み C グリッドサーチ：各格子点で eλ を求めるハイパーパラメータ 2 ハイパーパラメータ 1

19.

9.2.3 識別部の調整 (5/5) ハイパーパラメータ調整のためのデータ分割ハイパーパラメータ選択に用いたデータに対する識別率は、そのハイパーパラメータの性能を過大評価するので信用できないハイパーパラメータを選択するための検証用データ χV を分割に加える χV での性能が最も高くなる識別器の識別率を χE を用いて推定全データ学習⽤データ検証⽤データ評価⽤データ

20.

まとめ未知データに対する認識率の評価分割学習法交差確認法パターン認識システム全体の調整前処理の結果の確認特徴空間の評価ハイパーパラメータの調整 Jupyter notebook

https://github.com/MasahiroAraki/SpeechRecognition/blob/master/Python/chap09.ipynb