マンガでわかる機械学習 1章

1.4K Views

August 14, 23

#機械学習 #回帰 #Regression #Regularization #Machine Learning #Python #Implementation

スライド概要

荒木雅弘

@MasahiroAraki

スライド一覧

機械学習・音声認識・プログラミングに関する書籍を執筆しています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

chatgpt

荒木雅弘 4.9K

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

chatgpt デザイン思考

荒木雅弘 4.2K

プログラミング〈新〉作法 2. C言語からはじめよう

プログラミング

荒木雅弘 4K

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

chatgpt

荒木雅弘 3.6K

プログラミング〈新〉作法 1. はじめに

プログラミング

荒木雅弘 2.8K

フリーソフトではじめる機械学習入門 (第2版) 第14章

機械学習半教師あり学習

荒木雅弘 2.7K

各ページのテキスト

1章回帰ってどうやるの？ • 荒木雅弘(著), 渡まかな(作画), ウェルテ(制作) : 『マンガでわかる機械学習』（オーム社, 2018年） • サポートページ

1章のストーリー • さやかは清原にデータから数値を予測する回帰手法について教える • 回帰式が過学習とならないようにする手法である正則化についても教える • Python のライブラリ scikit-learn を使った実装についても教える

回帰（1章） • 回帰とは • 教師あり学習問題 • 特徴から数値を予測する p.11 3コマ目

単純な回帰問題イベント当日の最高気温と参加者数の関係参加者 700 回帰式 600 𝑐 ̂(x)=w1 x1 + w0 500 𝑐(𝒙) ̂ 400 誤差 300 𝑦 200 100 0 24 26 28 30 気温 32 34 36 38 x1

やや複雑な回帰問題イベント当日の最高気温・降水確率と参加者数の関係 y 参加者 𝑦 誤差 𝑐(𝒙) ̂ 回帰式 𝑐(x)=w ̂ 1 x1 +w2 x2 + w0 降水確率 x1 気温 x2

線形回帰 • 問題の定義直線・平面 • 入力 x から出力 𝑐(x) ̂ を求める回帰式を1次式に限定 d : 特徴の次元数 x0：0に固定 • 学習データに対してなるべく誤差の少ない直線（あるいは平面）の係数 w を求める

最小二乗法による解法 • 推定の基準：誤差の二乗和 E を最小化 N : 全データ数 yi : 正解 X : 学習データを並べた行列 y : 正解を並べたベクトル w : 係数を並べたベクトル • Eが最小となるのは w で偏微分したものが0となるとき w が行列の計算のみで求まる

正則化 • 過学習 • 最小二乗法は係数が線形であれば高次式でも適用可 • 特徴の次数を上げたり、特徴の次元数を増やしたりすると、複雑な回帰式で解を近似することになる参加者 800 700 学習データだけに当てはまる不自然な回帰式が求まってしまう 600 500 400 300 200 100 0 24 26 28 30 32 34 36 38 気温

正則化 • 過学習への対処 • 過学習した回帰式とは ⇒ 入力が少し動いただけで出力が大きく動く ⇒ 回帰式の係数 w が大きい • 正則化誤差が多少増えることと引き換えにwを小さくする p.23 3コマ目

10.

Ridge回帰 • 係数wの2乗を正則化項として誤差の式に加える • 全体的に係数が小さくなり、極端な値の変動がなくなる正解に合わせてこちらを小さくしようとすると... 係数が大きくなる α : 誤差と正則化項のバランス係数の値を小さくしすぎると... 正解から大きく離れてしまう

11.

Lasso回帰 • 係数 w の絶対値を正則化項として誤差の式に加える • 値が0となる係数が多くなり、出力に影響を与えている特徴を絞り込むことができる

12.

回帰式の具体例 • Bostonデータ • 犯罪発生率、部屋数、立地など13の条件から不動産価格を推定 • 2023年現在、このデータセットは倫理的な問題があるとされ、使用が推奨されていない Ridge 線形回帰 Lasso CRIM : -0.11 ZN : 0.05 INDUS : 0.02 CHAS : 2.69 NOX : -17.80 RM : 3.80 AGE : 0.00 DIS : -1.48 RAD : 0.31 TAX : -0.01 PTRATIO: -0.95 B : 0.01 LSTAT : -0.53 CRIM : ZN : INDUS : CHAS : NOX : RM : AGE : DIS : RAD : TAX : PTRATIO: B : LSTAT : -0.10 0.05 -0.04 1.95 -2.37 3.70 -0.01 -1.25 0.28 -0.01 -0.80 0.01 -0.56 CRIM : ZN : INDUS : CHAS : NOX : RM : AGE : DIS : RAD : TAX : PTRATIO: B : LSTAT : -0.02 0.04 -0.00 0.00 -0.00 0.00 0.04 -0.07 0.17 -0.01 -0.56 0.01 -0.82