358 Views
February 25, 22
スライド概要
データサイエンス演習(R システムを使用)
https://www.kkaneko.jp/cc/rd/index.html
金子邦彦研究室ホームページ
https://www.kkaneko.jp/index.html
金子邦彦(かねこくにひこ) 福山大学・工学部・教授 ホームページ: https://www.kkaneko.jp/index.html 金子邦彦 YouTube チャンネル: https://youtube.com/user/kunihikokaneko
rd-3. 機械学習による 自動分類 データサイエンス演習 (R システムを使用) https://www.kkaneko.jp/de/rd/index.html 金子邦彦 1
機械学習 • 機械学習とは、 与えられたデータ(教師データ)を使い, 未知のデータに対しても当てはまる パターンや規則を,コンピュータが抽出 すること 2
機械学習の用途 • 未知のデータの分類 • 予測 • 幅広い応用:画像認識,音声認識,自然言語処理, データ分析 3
教師データの例 Iris データセット ・3種,150のアヤメの 花びらのデータ ※ 右図は,主成分分 析の結果のプロット • 教師データは,多数のデータの集まり • 上の図では,点1つで,1つのデータ 4
自動分類 未知のデータ • 新しいデータ(未知のデータ)が あるとき,花の種類は何でありそうか 教師データの利用により,未知のデータについても見通し を立てることが可能に 5
3-1. Iris データセット 6
アヤメ属 (Iris) • 多年草 • 世界に 150種. 日本に 9種. • 花被片は 6個 • 外花被片(がいかひへん) Sepal 3個(大型で下に垂れる) • 内花被片(ないかひへん) Petal 3個(直立する) 7
Iris データセット • 3種のアヤメの外花被辺、 内花被片の幅と長さを計 測したデータセット Iris setosa Iris versicolor Iris データセットは, Rシステムの中に組 み込み済み Iris virginica • データ数は 50 × 3 • 作成者:Ronald Fisher • 作成年:1936 8
R システム での Iris データセットの表示 コンソールで次のコマンドを実行 iris コンソール画面をスクロール. Sepal.Length, Sepal.Width, Petal.Length. Petal.Width, Species の 5属性がある 9
内花被片(な いかひへん) Petal 外花被片(が いかひへん) Sepal 外花被片の 長さと幅 内花被片の 花の 長さと幅 種類 10
R システムでの実行手順 ① 必要なパッケージのインストール コンソールで次のコマンドを実行(コピペ) install.packages("ggplot2") install.packages("dplyr") install.packages("klaR") 以下省略 11
Iris データセットの散布図 ② Sepal.Length, Sepal.Width で散布図の作成. 花の種類で色を変える コンソールで次のコマンドを実行(コピペ) library(ggplot2) ggplot(iris, aes(x=Sepal.Length)) + geom_point( aes(y=Sepal.Width, colour=Species), size=3 ) + theme_bw() 散布図が表 示されるの で確認 12
Iris データセットの散布図 ③ Petal.Length, Petal.Width で散布図の作成. 花の種類で色を変える コンソールで次のコマンドを実行(コピペ) library(ggplot2) ggplot(iris, aes(x=Petal.Length)) + geom_point( aes(y=Petal.Width, colour=Species), size=3 ) + theme_bw() 散布図が表 示されるの で確認 13
3-2. 学習 14
自動分類のための学習 • 属性データとその種類に関するデータ(ラベル などという)を使って、学習 • 教師あり学習(Supervised Learning)ともいう 15
自動分類のための学習 新しい 数値の 並び コンピュータ ラベルを予測, ラベルは,Iris setosa, Iris versicolor, Iris virginica のいずれか 外花被辺、 内花被片 の幅と長 さ 事前学習 Iris setosa Iris versicolor Iris virginica 5.1 3.5 1.4 0.2 4.9 3.0 1.4 0.2 4.7 3.2 1.3 0.2 4.6 3.1 1.5 0.2 5.0 3.6 1.4 0.2 7.0 3.2 4.7 1.4 6.4 3.2 4.5 1.5 6.9 3.1 4.9 1.5 5.5 2.3 4.0 1.3 6.5 2.8 4.6 1.5 6.3 3.3 6.0 2.5 5.8 2.7 5.1 1.9 7.1 3.0 5.9 2.1 6.3 2.9 5.6 1.8 6.5 3.0 5.8 2.2 外花被辺、 内花被片 の幅と長 さ 16
自動分類のための学習 学習のデータセットは次の形をしている 数値の並び + ラベル 17
教師あり学習 (supervised learning) のデータセットの例 • Iris データセットは,3種のアヤメの外花被辺、 内花被片の幅と長さを計測したデータセット 5.1 3.5 1.4 0.2 setosa 4.9 3.0 1.4 0.2 satosa 4.7 3.2 1.3 0.2 setosa 4.6 3.1 1.5 0.2 setosa 5.0 3.6 1.4 0.2 setosa ... 7.0 3.2 4.7 1.4 versicolor 6.4 3.2 4.5 1.5 versicolor 6.9 3.1 4.9 1.5 versicolor 5.5 2.3 4.0 1.3 versicolor 6.5 2.8 4.6 1.5 versicolor … 6.3 3.3 6.0 2.5 virginica 5.8 2.7 5.1 1.9 virginica 7.1 3.0 5.9 2.1 virginica 6.3 2.9 5.6 1.8 virginica 6.5 3.0 5.8 2.2 virginica … 数値の並び + ラベル(花の種類) 18
LDA 法のプログラム例 Rstudio のコンソールで次のコマンドを実行 library(dplyr) library(klaR) d <- tbl_df(iris[c(3,4,5)]) partimat(Species~., data=d, method="lda") 赤、白、水色の パーティション 19
LDA 法は、教師あり学習の1手法 元データ 学習のデータセット ・数値の並び 内花被片の幅と高さのデータ ・ラベル 花の種類のデータ 空間が区分けされた. 新しい数値(内花被片の幅と高さ) が得られたとき、花の種類を予測できる 20