257 Views
December 22, 22
スライド概要
クラスタリング妥当性評価方法について
シルエット解析、エルボー法、情報量基準、ABテスト
マテリアルズインフォマティクスチュートリアル
クラスタリングの“妥当性”に関する手法 何のための妥当性?という話でもあります。 これ自体は目 的が無い Xのクラスタリ ング妥当性評価 目的がある 評価 観測データ 説明変数 (X) 説明変数(X)の 目的変数(y)も用 みの解析による いた解析による 目的変数(y) シルエット解析 エルボー法 情報量基準 ABテスト
クラスタリングの“妥当性”に関する手法 Xのみ:同じクラスター数でも異なるクラスターが得られる場合もあります。 シルエット分析:「幅」を揃える。 https://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_silhouette_analysis.html#sphx-glr-autoexamples-cluster-plot-kmeans-silhouette-analysis-py エルボー法:カクっと曲がる。 Kmeansインスタンスの.inertia_もしくは.scoreを用いる。 https://stackoverflow.com/questions/41540751/sklearn-kmeans-equivalent-of-elbow-method GaussianMixtureインスタンス:情報量基準。 .AIC, .BICなどが計算できる。 https://scikit-learn.org/stable/modules/generated/sklearn.mixture.GaussianMixture.html yと組み合わせる いわゆるABテスト(A/Bテスト):カテゴリ分けは何かの目的のためにあるので、クラスターがどの程度その目的 に合うのか実験して検証する