フリーソフトではじめる機械学習入門 (第2版) 第2章

2.4K Views

August 27, 23

#機械学習 #scikit-learn #Machine Learning #Python #Data preprocessing #Result visualization

スライド概要

荒木雅弘

@MasahiroAraki

スライド一覧

機械学習・音声認識・プログラミングに関する書籍を執筆しています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

chatgpt

荒木雅弘 4.9K

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

chatgpt デザイン思考

荒木雅弘 4.2K

プログラミング〈新〉作法 2. C言語からはじめよう

プログラミング

荒木雅弘 4K

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

chatgpt

荒木雅弘 3.6K

プログラミング〈新〉作法 1. はじめに

プログラミング

荒木雅弘 2.8K

フリーソフトではじめる機械学習入門 (第2版) 第14章

機械学習半教師あり学習

荒木雅弘 2.7K

各ページのテキスト

2. 機械学習の基本的な手順（Python 編） 2.2.1 scikit-learn を用いた機械学習の手順 2.2.2 データの読み込み荒木雅弘: 『フリーソフトではじめる機械 2.2.3 前処理学習入門（第2版）』（森北出版，2018年） 2.2.4 評価基準の設定と学習サポートページ 2.2.5 結果の表示スライドとJupyter notebook

2. 機械学習の基本的な手順一般的な機械学習の手順それぞれの手順に適したライブラリによる支援が可能データ収集・整理前処理評価基準の設定学習結果の可視化

2.2.1 scikit-learn を用いた機械学習の手順機械学習システムの開発に Python を使うメリットデータ処理や機械学習のパッケージが充実 numpy : 多次元配列を効率よく扱う scipy : 高度な数値計算 pandas : データの読み込み・解析を支援 scikit-learn : 多くの機械学習アルゴリズム tensorflow, pytorch : 深層学習グラフ表示などの可視化が容易 matplotlib : グラフ描画 seaborn : 統計データの可視化 Jupyter Notebook で実行手順を記録しながらコーディングが可能

2.2.1 scikit-learn を用いた機械学習の手順機械学習の手順と使用するライブラリ・クラス・メソッド学習データの読み込み探索的データ解析前処理評価法の設定学習結果表⽰・組み込みデータは datasets パッケージを利⽤・外部データは pandas の read_csv 等を利⽤・次元削減: PCA, TSNE ・標準化: StandardScaler ・どのようにして評価を⾏うかを決める・必要ならばデータを分割・ハイパーパラメータを与えてインスタンスを作成・分割学習法では fit に学習データを与えて学習し、 predict に評価データを与えて予測を得る・交差確認法では cross_val_score で評価を実施・分割学習法では confusion_matrix で混同⾏列を求める・交差確認法では結果から平均・標準偏差などを求める

2.2.1 scikit-learn を用いた機械学習の手順パッケージの読み込みデータの格納や基本的な操作に numpy は必須入力したデータの分析や前処理を行うには pandas を使うデータや結果の可視化を行うには matplotlib.pyplot を使う scikit-learn はパッケージ全体ではなくクラスや関数を個別に指定 import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.datasets import load_iris from sklearn.decomposition import PCA from sklearn.manifold import TSNE from sklearn.preprocessing import StandardScaler from sklearn.neighbors import KNeighborsClassifier from sklearn.model_selection import train_test_split, cross_val_score from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay, classification_report

2.2.2 データの読み込みサンプルデータ: iris 3種類のアヤメ（setosa, versicolor, virginica）を萼(がく; sepal) の長さ・幅、花びら (petal)の長さ・幅の計4つの特徴から分類する各クラス50事例ずつで計150事例のデータ数冒頭の5事例 index sepal length (cm) sepal width (cm) petal length (cm) petal width (cm) class 0 5.1 3.5 1.4 0.2 setosa 1 4.9 3.0 1.4 0.2 setosa 2 4.7 3.2 1.3 0.2 setosa 3 4.6 3.1 1.5 0.2 setosa 4 5.0 3.6 1.4 0.2 setosa

2.2.2 データの読み込み scikit-learn でのデータの持ち方パターン行列 : X 全データの特徴ベクトルを列方向に並べたもの iris データの場合は150事例、4特徴の150行4列の行列正解 : y 正解ラベルを整数値にしてデータの数だけ並べたもの iris データの場合は150個の数字（0,1,2のいずれか）が並ぶベクトル

2.2.2 データの読み込み numpy の ndarray (n次元テンソル)として読み込む方法 load_iris 関数の戻り値は Bunch オブジェクト特徴ベクトル，正解データ，特徴名，データの説明などのさまざまな情報を属性として持つ iris = load_iris() X = iris.data y = iris.target X や y は ndarray なので、scikit-learn の学習データとして用いることができる pandas の DataFrame および Series として読み込む方法実データでは、異常値・欠損値・記述ミス・不要な特徴の混入などへの対処が必要 → このような用途では numpy では不十分なので、pandas を使うデータロード関数の引数 : as_frame=True iris = load_iris(as_frame=True)

探索的データ解析探索的データ解析 (EDA; Explanatory Data Analysis) とは設定した問題に対して、対象としているデータが解決に適したものであるか、また機械学習を適用する前にどの程度の整理が必要かを調べること手法データの統計的性質を分析データを可視化 pandas: データ分析・操作統計的分析: describe, hist, … 異常値・欠損値(NA)処理: query, dropna, fillna, … matplotlib: グラフ表示

10.

探索的データ解析主成分分析(PCA) 高次元空間上のデータの散らばり方をできるだけ保存する低次元空間への写像を求めるデータの次元削減に有効 pca = PCA(n_components=1) X2 = pca.fit_transform(X) 共分散⾏列を計算 ## n_components: 削減後の次元数を固有値分解第1主成分ベクトル

11.

探索的データ解析 t-SNE 高次元空間でのデータの類似度を反映した低次元空間への写像を求めるデータの可視化に有効 tsne = TSNE(perplexity=5) ## perplexity: 考慮する近傍のデータ数（5～50程度の値で全データ数が多いほど大きく） X3 = tsne.fit_transform(X)

12.

t-SNEの考え方元の高次元空間どの範囲のデータを類似度計算の対象とみなすかをパラメータ perplexity で与えるデータ xi と xj の類似度を、xi の近傍として xj を選択する条件付き確率 pij とする pij : 平均をxi 、分散をperplexityに基づいて求めたσ 2 とする正規分布に基づいて計算削減後の低次元空間データ y i と y j の類似度 qij を、自由度1のt分布に基づいて計算 t分布は正規分布よりも値の大きい範囲が広い最適化 pij , qij 両分布間の距離(KL-divergence)を最小化するように Y = {y 1 , … , y n } の位置を逐次更新 KL(P , Q) = ∑ ∑ pij log i j pij qij

13.

2.2.3 前処理特徴のスケーリング特徴の各次元のスケールが著しく異なると、特徴の扱いが不公平になる標準化：すべての次元を平均0、分散1に揃える各次元（軸）に対して平均値を引き、標準偏差で割る x′i = xi − m i σi X_scaled = StandardScaler().fit_transform(X) mi , σi : 軸iの平均、標準偏差

14.

2.2.4 評価基準の設定と学習分割学習法（データ数が多いとき）データを学習用と評価用に適切な割合で分ける Train Test 実験の再現性を確保するためにはrandom_stateを固定しておく X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.33, random_state=7) ハイパーパラメータを調整する場合は、学習用・検証用・評価用に分ける Train Valid Test

15.

2.2.4 評価基準の設定と学習交差確認法（データ数が少ないとき）データを m 個の集合に分割し、m − 1 個の集合で学習、残りの1個の集合で評価 1回⽬結果1 2回⽬結果2 m回⽬結果m を行う評価する集合を入れ替え、合計 m 回評価を行う分割数をデータ数とする場合を一つ抜き法とよぶ学習用データで交差確認法によりハイパーパラメータ調整を行い、評価用データで評価してもよい平均評価⽤データ学習⽤データ

16.

2.2.4 評価基準の設定と学習 k-NN法識別したいデータの近傍のk個の学習データを探し、属するクラスの多数決で識別

17.

2.2.4 評価基準の設定と学習 k-NN法のパラメータ近傍として探索するデータ数: k k が1の場合にもっとも複雑な境界となり、汎化性能は低くなる傾向がある k が増えるに従って境界は滑らかになるが、大き過ぎると識別性能が低下する距離尺度通常はユークリッド距離値を持つ次元が少ない場合はマンハッタン距離探索方法入力と全データとの距離を計算してソートデータが多い場合は事前にデータを木構造化

18.

2.2.4 評価基準の設定と学習学習を行うインスタンスの生成モデルの構成に関するパラメータ（ハイパーパラメータ）は、インスタンス生成時に与える詳しくはAPIドキュメントを参照 clf = KNeighborsClassifier(n_neighbors=3) アルゴリズムの詳細な説明や、事例が記載されているページへのリンクデフォルト引数の値が⽰されている。*以降は必ずキーワード引数で指定する。インスタンス⽣成時に指定するパラメータの説明

https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

19.

2.2.5 結果の表示学習したモデル式、木構造、ネットワークの重み、etc. 性能正解率、適合率、再現率、F値グラフパラメータを変えたときの性能の変化異なるモデルの性能比較

20.

2.2.5 結果の表示正解の割合。不均衡データには不適混同行列予測+ 正解率予測- 正解+ true positive (TP) false negative (FN) 正解- false positive (FP) true negative (TN) Accuracy = TP +TN TP +FN +FP +TN 適合率正例の予測が正しい割合 P recision = TP TP +FP 再現率正しく予測された正例の割合 Recall = TP TP +FN F値適合率と再現率の調和平均 F-measure = 2 × P recision×Recall P recision+Recall

21.

2.2.5 結果の表示多クラス識別の評価法マイクロ平均クラスごとにTP, FN, FP, TNを求め、それらを足し合わせて評価するマルチラベルの設定以外では適合率・再現率・F値がすべて正解率に一致するマクロ平均ひとつのクラスを正、残りのクラスを負とした混同行列を作成し、クラスごとの適合率や再現率を求め，平均を計算するすべてのクラスを平等に評価している重み付きマクロ平均クラス毎の正解事例数を評価に反映させる

22.

2.2.5 結果の表示多クラス識別の評価法重み付きマクロ平均多クラスの識別結果予測A 予測B 予測A 予測C 正解A 正解A 2クラスの識別結果に変換正解B 正解C 予測A 正解A それ以外正解A それ以外それ以外表全体でTP, FN, FP, TNを計算マイクロ平均それ以外予測A それ以外それ以外マクロ平均

23.

パイプラインパイプラインとは複数の前処理と学習モジュールなど、連続した処理をパイプラインとして結合して、ひとつの識別器のインスタンスとみなせるパイプラインのメリット処理をカプセル化して実行を簡単にできるハイパーパラメータ調整を一度に行えるテストデータが混入していないことを保証できる normalize 最終要素以外は transformメソッドを実装していること clf 最終要素は⼀般には識別器全体をひとつの識別器として扱える

24.

2.3 まとめ機械学習の基本的な手順探索的データ解析統計的分析、可視化前処理標準化、次元削減評価基準の設定分割法、交差確認法学習ハイパーパラメータ調整結果の可視化実開発ではこれ以前のデータ収集・フォーマットの統一等の段階がもっとも時間がかかることも多い