655 Views
August 14, 23
スライド概要
機械学習や音声認識に関する書籍を執筆しています。
1章 回帰ってどうやるの? • 荒木雅弘(著), 渡まかな(作画), ウェルテ(制作) : 『マンガでわかる機械学習』 (オーム社, 2018年) • サポートページ
1章のストーリー • さやかは清原にデータから数値を予測する回帰手法について 教える • 回帰式が過学習とならないようにする手法である正則化につ いても教える • Python のライブラリ scikit-learn を使った実装についても 教える
回帰(1章) • 回帰とは • 教師あり学習問題 • 特徴から数値を予測する p.11 3コマ目
単純な回帰問題 イベント当日の最高気温と参加者数の関係 参加者 700 回帰式 600 𝑐 ̂(x)=w1 x1 + w0 500 𝑐(𝒙) ̂ 400 誤差 300 𝑦 200 100 0 24 26 28 30 気温 32 34 36 38 x1
やや複雑な回帰問題 イベント当日の最高気温・降水確率と参加者数の関係 y 参加者 𝑦 誤差 𝑐(𝒙) ̂ 回帰式 𝑐(x)=w ̂ 1 x1 +w2 x2 + w0 降水確率 x1 気温 x2
線形回帰 • 問題の定義 直線・平面 • 入力 x から出力 𝑐(x) ̂ を求める回帰式を1次式に限定 d : 特徴の次元数 x0:0に固定 • 学習データに対してなるべく誤差の少ない直線(あるいは平面) の係数 w を求める
最小二乗法による解法 • 推定の基準:誤差の二乗和 E を最小化 N : 全データ数 yi : 正解 X : 学習データを並べた行列 y : 正解を並べたベクトル w : 係数を並べたベクトル • Eが最小となるのは w で偏微分したものが0となるとき w が行列の計算 のみで求まる
正則化 • 過学習 • 最小二乗法は係数が線形であれば高次式でも適用可 • 特徴の次数を上げたり、特徴の次元数を増やしたりすると、 複雑な回帰式で解を近似することになる 参加者 800 700 学習データだけに 当てはまる不自然な 回帰式が求まって しまう 600 500 400 300 200 100 0 24 26 28 30 32 34 36 38 気温
正則化 • 過学習への対処 • 過学習した回帰式とは ⇒ 入力が少し動いただけで出力が大きく動く ⇒ 回帰式の係数 w が大きい • 正則化 誤差が多少増えることと 引き換えにwを小さくする p.23 3コマ目
Ridge回帰 • 係数wの2乗を正則化項として誤差の式に加える • 全体的に係数が小さくなり、極端な値の変動がなくなる 正解に合わせて こちらを小さく しようとすると... 係数が 大きくなる α : 誤差と正則化項の バランス 係数の値を 小さくしす ぎると... 正解から大きく 離れてしまう
Lasso回帰 • 係数 w の絶対値を正則化項として誤差の式に加える • 値が0となる係数が多くなり、出力に影響を与えている特徴を 絞り込むことができる
回帰式の具体例 • Bostonデータ • 犯罪発生率、部屋数、立地など13の条件から不動産価格を推定 • 2023年現在、このデータセットは倫理的な問題があるとされ、使用が推奨されていない Ridge 線形回帰 Lasso CRIM : -0.11 ZN : 0.05 INDUS : 0.02 CHAS : 2.69 NOX : -17.80 RM : 3.80 AGE : 0.00 DIS : -1.48 RAD : 0.31 TAX : -0.01 PTRATIO: -0.95 B : 0.01 LSTAT : -0.53 CRIM : ZN : INDUS : CHAS : NOX : RM : AGE : DIS : RAD : TAX : PTRATIO: B : LSTAT : -0.10 0.05 -0.04 1.95 -2.37 3.70 -0.01 -1.25 0.28 -0.01 -0.80 0.01 -0.56 CRIM : ZN : INDUS : CHAS : NOX : RM : AGE : DIS : RAD : TAX : PTRATIO: B : LSTAT : -0.02 0.04 -0.00 0.00 -0.00 0.00 0.04 -0.07 0.17 -0.01 -0.56 0.01 -0.82