SASによるk-means法

6.8K Views

March 29, 24

#[第8回大阪sas勉強会] #k-means法 #クラスター分析 #SAS #FASTCLUSプロシジャ #機械学習

スライド概要

[第8回大阪sas勉強会] 高田浩成

森岡裕[SASユーザー総会世話人]

@6484025

スライド一覧

SAS言語を中心として，解析業務担当者・プログラマなのコミュニティを活性化したいです

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

MMRM入門

[第8回大阪sas勉強会]

森岡裕[SASユーザー総会世話人] 46.8K

t検定の基礎(Studentのt検定とWelchのt検定)

[第9回大阪sas勉強会]

森岡裕[SASユーザー総会世話人] 32.6K

SASユーザー総会論文集 2024年

sasユーザー総会論文集 2024年

森岡裕[SASユーザー総会世話人] 26.8K

SASのコールルーチンは57個あるねん10分で全部説明するねん

[第9回大阪sas勉強会]

森岡裕[SASユーザー総会世話人] 25.1K

統計解析・確率論に関連するパラドックス

森岡裕[SASユーザー総会世話人] 24.2K

ゼロからでも始められるSASプログラミングのエッセンス

森岡裕[SASユーザー総会世話人] 19.2K

各ページのテキスト

第8回大阪SAS勉強会 SASによるk-means法イーピーエス統計解析部高田浩成 2023/3/24 1

目的・概要 • k-means法は統計・機械学習の分野でよく見かける • SASに専用のプロシジャがある • アルゴリズム学習の一例として扱ってみる 1. 非階層クラスター分析の立場 2. k-means法アルゴリズムの紹介 3. FASTCLUSプロシジャによる実装 4. アウトプット情報の考察 2

k-means法とは例）2次元空間上でk=3 と指定した場合のイメージ • データを特徴（数値）に基づき任意のk個にグループ分けするアルゴリズム • 非階層クラスター分析の代表とされる手法 • 互いに近いデータは同じクラスターの方針 • クラスターの中心・割当を繰り返す • 用途顧客のセグメント化、遺伝子発現のパターン化 △ ○ ① ○ ○ △ ② △ △ ○ ○ × ③ × × 3

機械学習の種類（人工知能の概念） ①教師あり学習 • 目的変数あり→入力・出力データの関係を分析 • 線型回帰：説明変数との関係性を誤差が最小になるように予測 • ロジスティック回帰：2値(0,1)の目的変数の発生確率の予測 ②教師なし学習 • 目的変数なし→入力からその背景にあるパターンや構造を見つける • クラスター分析：値の類似性をもとにデータをグループ化 • 主成分分析：データの特徴を残しながら簡素化（次元削減） ③強化学習 • 最初からデータは無く、システム自身が試行錯誤して精度を高める ※それらの構造として、網状化したニューラルネットワークやさらに多層化したディープラーニングが存在 4

クラスター分析の種類クラスター：集落、クラスタリング：分類 ①階層クラスター分析 • 樹形図のイメージ • クラスター数は自動計算 • 例：ウォード法、群平均法 ②非階層クラスター分析 • クラスター数を予め手動設定 • ビッグデータに対して計算速度的に有用 • 例：k-means法、混合正規分布モデル Y(AB) B A A X(ABC) B C C 5

【k-means法】アルゴリズム 𝑛 arg min𝑉1 ,⋯,𝑉𝑘 ෍ min ∥ 𝑥𝑖 − 𝑉𝑗 ∥2 最小距離となる引数Vを格納 𝑖=1 𝑗 i：データ番号 j：クラスター番号 k：クラスター数 ★クラスター中心とクラスター割当の更新を繰り返す ①各データxiに対してランダムにクラスターを割り振る。 ②各クラスタの中心Vjを計算する。 ③各xiと各Vjとの距離を求め、xiを最も近い中心のクラスターに割当て直す。 ④全てのxiのクラスターの割当てが変化しなかった場合、収束と判断して処理を終了する（そうでない場合はVjを再計算して上記処理を繰り返す）。 6

【k-means法】手順イメージ（2次元） ① ② クラスター中心の更新 ① ② クラスター割当の更新 ① ② クラスター中心の更新収束するまで続く 7

【SAS】FASTCLUSプロシジャ • k-means法を実装するプロシジャ（SASオンラインマニュアル記載） proc fastclus data=[入力] out=[出力] maxclusters=[分類数] outstat=[統計情報] seed=[初期値データセット] ; var [数値変数1] [数値変数2] [数値変数3] … ; run ; maxclustersオプションは手動設定で必須 outstatオプションにより全アウトプット情報をデータセット出力可能 seedオプションによりデータセットに値に関わらず初期値を手動で設定可能（設定しない場合は固定値） 8

サンプルデータ(SASHELP.CARS) N=428、自動車モデルの情報から3分類（大型・中型・小型のイメージ） No. 変数名内容 1 MSRP メーカー希望小売価格[$] 2 Invoice 請求書価格[$] 3 EngineSize エンジンサイズ[L] 4 Cylinders シリンダー部品数 5 Horsepower 馬力 6 MPG_City 燃料消費率（一般道路）[miles/gallon] 7 MPG_Highway 燃料消費率（高速道路）[miles/gallon] 8 Weight 重量[lbs] 9 Wheelbase ホイールベース（最遠軸距）[inch] 10 Length 全長[inch] 9

10.

入力データセット・解析プログラム 10変数 428 obs ・・・・・・ proc fastclus data=SASHELP.CARS out=OUT outstat=OUTSTAT maxc=3 ; var MSRP Invoice EngineSize Cylinders Horsepower MPG_City MPG_Highway Weight Wheelbase Length ; run ; 10

11.

出力データセット【OUTSTAT=】統計情報（アウトプット画面参照）入力DSの右端に付与【OUT=】クラスタリング結果・・・・・・ 11

12.

アウトプット1：初期値・サイズ初期値設定無し：最大値・最小値・中間値を配慮？（k-means++法？） OBS413 OBS207 OBS335 12

13.

アウトプット2：決定係数クラスター数が増える（クラスターサイズが小さくなる）と上昇しやすい決定係数R2＝（相関係数R）2 13

14.

アウトプット3：データ特徴参考：変動係数CV＝標準偏差÷平均クラスター間の分布の格差は小さめで分類できている？ 14

15.

2次元イメージ（散布図） proc fastclus data=SASHELP.CARS out=OUT maxc=3 ; var EngineSize Horsepower ; クラスタリング結果をSGPLOTプロシジャで描画 run ; （クラスター別にマーカー変更）初期値 ※可視化の便宜上、エンジンサイズと馬力の 2次元に設定して再解析後、グラフ出力。空間的には違和感ないがクラスターのサイズに偏り・・・（設定次第で度数0になることも） 15

16.

初期値変更による結果の違い proc fastclus data=SASHELP.CARS out=OUT seed=SEED maxc=3 ; var EngineSize Horsepower ; run ; SEEDデータセットで任意の初期値を設定初期値変更クラスターバランスが改善 16

17.

まとめ • k-means法のしくみとSASでの実装方法を紹介 • 高次元では人の目で分類するのは困難 →FASTCLUSプロシジャで高速クラスタリングが実現 • 初期値依存性があり最良の結果が得られるわけではない →複数回の試行や他手法との併用に必要性も • セグメント化手法として知っておいて良いかもしれない • AI導入の時代に向けてアルゴリズム関係にも注意を向けたい 17

18.

参考資料 • 『データサイエンティスト基本スキル84』野村総合研究所データサイエンスラボ、日本経済新聞出版(2022.12) • SAS Help Center: PROC FASTCLUS Statement https://documentation.sas.com/doc/en/statcdc/14.2/statug/statug_fastclus_s yntax01.htm • k平均法、k-means++法： Wikipedia https://ja.wikipedia.org/wiki/K平均法 https://ja.wikipedia.org/wiki/K-means++法 • クラスター分析の手法：株式会社ALBERT・データ分析基礎サイト https://www.albert2005.co.jp/knowledge/data_mining/cluster/hierarchical_clu stering https://www.albert2005.co.jp/knowledge/data_mining/cluster/nonhierarchical_clustering 18