27.3K Views
December 07, 22
スライド概要
マテリアルズ・インフォマティクス 連続セミナー 第一回
動画:https://youtu.be/WkStbYrGCM4
2022 Dec. 14 修正
マテリアルズインフォマティクスチュートリアル
2022年 マテリアルズ・インフォマティクス 連続セミナー 第一回 データ解析学基礎 木野日織(きのひおり)
一般人向け(マテリアルズ)インフォマティクスの勉強ソース例 (一般的な教科書除く) Scikit-learnの例 (個人的な見方) 玄人向け。 コード例から、MIを実践できる人を短 時間に育成したい。 コード多め 目標 Udemy(有料) 実践 統計数理研究所のリーディングDAT講座 (無料と有料あります。) https://www.ism.ac.jp/lectures/leadi ngdat/2022/index.html 理論を 知りたい 理論 キーワード 個々 多様 Slack上の質問コーナー: 明治大学データ化学工学研究室(金子研究室)オンライン サロン(無料) https://datachemeng.com/onlinesalon/ かなり基礎的な質問もあります。 マテリアルズインフォマティクスが どういう感じかを知るため: 1. マテリアルズ・インフォマティ クス-材料開発のための機械学習 超入門-岩崎悠真 (著) 2. マテリアルズ・インフォマティ クスII 機械学習を活用したマテ リアルDX超入門 -岩崎悠真 (著)
大学関連の勉強ソース 「数理・データサイエンス・AI教育プログラム認定制度」 https://www.mext.go.jp/content/20220824-mxt_senmon01-000188414.pdf 各大学がどのレベルで認可されたか分かる。
(マテリアルズ)インフォマティクス(MI)の実践手段 MI実践手段 計算機言語 Python Scikitlearn,pymaten。 Deep-learningを 行いたいならばほ ぼ一択。 R 非言語GUI Java MATLAB (有料) Orange Data Mining KNIME (階層構造の一例) 少し前までの標 準。大量に手法 説明の教科書が ある。 自然言語処理では 標準だった。 JavaによるGUIアプ リは多い。 追加機能が多 く販売されて いる。
動画について 講師について:滑舌がよくありません。 また、ページにより、話す速度、音の高さが変わって います。ご了承ください。
2022年 マテリアルズ・インフォマティクス 連続セミナー 第一回 データ解析学基礎 木野日織(きのひおり) 物質・材料研究機構
本連続セミナーの内容 今回の内容 • データ解析学手法の系統的紹介 • データ解析学手法が用いる帰納法の(再)理解 次回以降はscikit-learnを中心したPythonスクリプトの例とそ の実行によりデータ解析学に慣れていただく。
前置き 「データ解析学」 =「機械学習」=「インフォマティクス」=「データマイニング」とします。 物理・化学と異なりデータ解析学は最近の科学で用語定義が定まって いない用語があります。 本セミナーで階層構造図が多くでてきます。 まず、階層構造は一意ではありません。 更に、用語定義が人により変わることもあり、他の方とは階層構造 が大きく異なる定義をする場合もあります。 図に書かれないノードも存在します。
動詞語彙 計算物理では「計算する」「評価する」、実験では「測定する」「計測す る」など→一般的に「観測する」を用いる。 計算データも実験データも観測データとする。 観測する 観測データ カテゴリ分け 計算する 評価する 測定する 計測する カテゴリ分け 計算データ 実験データ
予測問題 予測問題 演繹的アプ ローチ 帰納的アプ ローチ 支配法則を 知っている場 合の予測問題 支配法則を知 らない場合の 予測問題 (階層構造の一例)
予測問題 予測問題 演繹的アプ ローチ 帰納的アプ ローチ 支配法則を 知っている場 合の予測問題 支配法則を知 らない場合の 予測問題 (階層構造の一例)
演繹アプローチによる予測 支配法則を知っている場合 例)物体の落下速度の予測 目的:落下速度(𝑣)の予測 定数:重力定数(𝑔) 物体の速度状態を定義する変数: 質量(𝑚)、摩擦係数(𝑘)、時間(𝑡) 実行過程 𝑑𝑣 1.支配法則を得る:𝑚 = 𝑔𝑚 − 𝑘𝑣 (下を𝑣の正) 𝑑𝑡
演繹的アプローチによる予測 実行過程(つづき) 2.支配法則を解き、 3.得たい変数(𝑚, 𝑘, 𝑡)組に対する𝑣の予測値を生成する。 表形式で表す。 ID ID1 ID2 𝑘 𝑘1 𝑘2 𝑡 𝑡1 𝑡2 𝑣 𝑣1 𝑣2 𝑚𝑁 𝑘𝑁 𝑡𝑁 𝑣𝑁 … 𝑚 𝑚1 𝑚2 … IDN 説明変数(𝑥) Ԧ 目的変数(𝑦) それぞれの行 をデータイン スタンスと呼 ぶ。
実行過程 ノードが文章の場合 支配法則を知ってい る場合の目的変数値 を予測する 実行過程 1. 支配法則を表す方 程式を得る 2. 予測モデルを得る 3. 未知説明変数の予 矢印は実行順序。 同時に実行順序を 示す番号も表示。 測値を得る 縦線は具体的な 実現方法 支配法則の方程式を 解く (階層構造の一例) 予測モデル𝑣(𝑚, 𝑣, 𝑡) を評価する。
予測問題 予測問題 演繹的アプ ローチ 帰納的アプ ローチ 支配法則を 知っている場 合の予測問題 支配法則を知 らない場合の 予測問題 (階層構造の一例)
帰納的アプローチによる予測 支配法則を知らない場合 1.(大量の)欠けが無い表形式の観測データがあれば ID 𝑚 𝑘 𝑡 y=𝑣 ID1 𝑚1 𝑘1 𝑡1 𝑣1 ID2 𝑚2 𝑘2 𝑡2 𝑣2 𝑚𝑁 𝑘𝑁 𝑡𝑁 𝑣𝑁 𝑦 関数𝑓 … IDN 2.観測データ{𝑥Ԧ𝑖𝑜𝑏𝑠 , 𝑦𝑖𝑜𝑏𝑠 }に合う関数𝑓を作成すれば、 𝑦𝑖𝑜𝑏𝑠 = 𝑓(𝑥Ԧ𝑖𝑜𝑏𝑠 ), 𝑥Ԧ = (𝑚, 𝑘, 𝑡) 3. 未知説明変数(𝑥Ԧ𝑖𝑛𝑒𝑤 )に対し𝑦𝑗new の妥当な予測が 可能かもしれない。 𝑦𝑗𝑛𝑒𝑤 = 𝑓(𝑥Ԧ𝑗𝑛𝑒𝑤 ) 𝑥Ԧ
用語定義など 観測データに対して𝑦~𝑓(𝑥)となる関数𝑓(モデル)を得る過程 Ԧ →モデルを「学習する」という。 観測データに合う関数𝑓は「相関」が高い予測モデルを求める。 相関の指標の例) 2 1 𝑁 MSE= σ𝑖 𝑦𝑖 − 𝑓 𝑥Ԧ𝑖 𝑁 簡単のため𝑦はスカラ。
目的:目的変数の予測 支配法則を知らな い場合の目的変数 値を予測する まとめ (階層構造の一例) 1. (大量の)観 測データを得る 2. 予測モデルを 学習する 3. 未知説明変数 への予測値を得る 欠けが無い表形式 予測モデルとして 相関が高い関数を 得る 予測モデル 𝑣(𝑚, 𝑣, 𝑡)を評価す る。
目的:目的変数の予測 支配法則を知っ ている場合、知 らない場合をま とめて書く 目的変数値を予 測する 1. (大量の) 観測データを得 る 2. 予測モデル を得る 支配法則を知っ ている場合の予 測モデルを得る 1. 支配法則を 表す方程式を得 る 2. 支配法則の 方程式を解く 3. 未知説明変 数の予測値を得 る 支配法則を知ら ない場合の予測 モデルを得る 予測モデルとし て相関が高い関 数を得る 文章で番号、矢印が 無い階層はカテゴ リー分けを示す。 (階層構造の一例)
目的:支配法則を知っている場合の目的変数の予測 目的変数値を予 測する 1. (大量の) 観測データを得 る 演繹法はこの過程 の結果を暗黙知と している。 予測の妥当性の根 拠となる。 2. 予測モデル を得る 支配法則を知っ ている場合の予 測モデルを得る 1. 支配法則を 表す方程式を得 る 2. 支配法則の 方程式を解く 3. 未知説明変 数の予測値を得 る 支配法則を知ら ない場合の予測 モデルを得る 予測モデルとし て相関が高い関 数を得る (階層構造の一例)
目的:支配法則を知らない場合の目的変数の予測 目的変数値を予 測する 1. (大量の) 観測データを得 る 2. 予測モデル を得る 支配法則を知っ この過程を計算機 ている場合の予 測モデルを得る を用いて行う。 1. 支配法則を 表す方程式を得 る 2. 支配法則の 方程式を解く 3. 未知説明変 数の予測値を得 る 支配法則を知ら ない場合の予測 モデルを得る 予測モデルとし て相関が高い関 数を得る 支配法則を知ら ないので予測モ デルが妥当か分 からない。 (階層構造の一例)
帰納的アプローチによる予測モデル学習 問題設定: 1. 支配法則が分からない。 2. 適切な説明変数かどうか分からない。 3. (実験)観測データは観測誤差を含む。 4. データに間違いが含まれているかもしれない。 … という条件下で 有限個の(大量の)観測データから、目的:未知説明変数の予測をする。 支配法則に替わる予測モデルの妥当性の定量的評価が必要
予測モデル学習 目的:妥当な予測モデルかの定量評価(汎化性能) 仮想的な全データ 観測データ 未知 データ 回帰モデル作成 妥当性の評価 予測モデル 適用 しかし、データが無い未知データへの定量評価は不可能。 →定量評価の実現手段なし。
予測モデル学習(代替手法) 目的:妥当な予測モデルかの定量評価(汎化性能) 仮想的な全データ 観測データ 訓練 データ テスト データ 回帰モデル作成 未知 データ 妥当性の評価 予測モデル 適用 代替手段:訓練データに無いという意味でテストデータ で擬似的な未知データへの評価とする。
予測モデル学習の各過程 予測モデルとし て相関が高い関 数を得る 1. 観測データ 分割を行う 2. モデル当て はめを行う 3. モデル評価 を行う 4. モデルを選 択する 訓練データ・テ ストデータに分 ける 訓練データに対 してある関数を 最適化する テストデータに 対して性能評価 指標値を得る 性能評価指標値 から妥当なモデ ルを選択する。 (階層構造の一例)
予測モデル学習の各過程 予測モデルとし て相関が高い関 数を得る 1. 観測データ 分割を行う 2. モデル当て はめを行う 3. モデル評価 を行う 4. モデルを選 択する 訓練データ・テ ストデータに分 ける 訓練データに対 してある関数を 最適化する テストデータに 対して性能評価 指標値を得る 性能評価指標値 から妥当なモデ ルを選択する。 (階層構造の一例)
予測モデル学習の各過程 予測モデルとし て相関が高い関 数を得る 1. 観測データ 分割を行う 2. モデル当て はめを行う 3. モデル評価 を行う 4. モデルを選 択する 訓練データ・テ ストデータに分 ける 訓練データに対 してある関数を 最適化する テストデータに 対して性能評価 指標値を得る 性能評価指標値 から妥当なモデ ルを選択する。 (階層構造の一例)
2. モデル当てはめを行う(1) 訓練データに対してある関数を最適化する 例:線形回帰モデル 𝑓 𝑥Ԧ = 𝑤𝑝 𝑥𝑝 + 𝑤0 𝑝 𝑥Ԧ = 𝑥1 , 𝑥2 , … , 𝑥𝑃 𝑤 = 𝑤1 , 𝑤2 , … , 𝑤𝑃 𝑟𝑒𝑔 関数𝐿 = 𝑡𝑟𝑎𝑖𝑛 𝑁 σ𝑖 訓練データ数: 𝑁 𝑡𝑟𝑎𝑖𝑛 𝑦𝑖 − 𝑓 𝑥Ԧ𝑖 2 +𝛼 𝑤 𝑛 を最小化 𝑛
2. モデル当てはめを行う(2) 𝑟𝑒𝑔 関数𝐿 = 1 𝑡𝑟𝑎𝑖𝑛 𝑁 σ𝑖 𝑡𝑟𝑎𝑖𝑛 𝑁 𝑦𝑖 − 𝑓 𝑥Ԧ𝑖 2 +𝛼 𝑤 𝑛 を最小化 𝑛 第二項目:Lnノルムを含む罰則項 n=1: 𝑤 n=2: 𝑤 1 1 2 2 n = σ𝑝 |𝑤𝑝 | = σ𝑝 𝑤𝑝 2 定義: 𝑤 𝑛 𝑚 = 𝑚 𝑤𝑝 𝑚 𝑝 ハイパーパラメタ 𝛼 の値を変え、複数の𝐿𝑟𝑒𝑔 を最適化し、 回帰モデルを複数個学習します。
予測モデル学習の各過程 予測モデルとし て相関が高い関 数を得る 1. 観測データ 分割を行う。 2. モデル当て はめを行う 3. モデル評価 を行う 4. モデルを選 択する 訓練データ・テ ストデータに分 ける 訓練データに対 してある関数を 最適化する テストデータに 対して性能評価 指標値を得る 性能評価指標値 から妥当なモデ ルを選択する。 (階層構造の一例)
3. モデル評価を行う (相関度合いを示す)回帰評価指標: MSE = 1 σ𝑁 𝑖 𝑁 𝑦𝑖 − 𝑓 𝑥Ԧ𝑖 2 . RMSE = MSE. 1 MAE = σ𝑁 Ԧ𝑖 |. 𝑖 |𝑦𝑖 − 𝑓 𝑥 𝑁 𝑅2 = 1 − 2 σ𝑁 𝑖 𝑦𝑖 −𝑓 𝑥Ԧ𝑖 σ𝑁 ത 2 𝑖 𝑦𝑖 −𝑦 where 𝑦ത = 小さいほど相関が高い。 [0, ∞] 1 𝑁 , σ𝑁 𝑖 𝑦𝑖 . 大きいほど相関が高い。 [−∞, 1]
3. モデル評価を行う (相関度合いを示す)回帰評価指標を用いて テストデータに対して性能評価指標値を得る。 ← 具体的手段 ← σ𝑁 𝑖 をテストデータに対して行う。 (訓練データに対しての性能評価指標値も得られる。 ← 具体的手段 ← σ𝑁 𝑖 を訓練データに対して行う。)
予測予測モデル学習の各過程モデル学習 手段 予測モデルとし て相関が高い関 数を得る 1. 観測データ 分割を行う。 2. モデル当て はめを行う 3. モデル評価 を行う 4. モデルを選 択する 訓練データ・テ ストデータに分 ける 訓練データに対 してある関数を 最適化する テストデータに 対して性能評価 指標値を得る 性能評価指標値 から妥当なモデ ルを選択する。 (階層構造の一例)
4. モデルを選択する 訓練データに対するRMSE 𝑁𝑡𝑟𝑎𝑖𝑛 性能評価指標値からモデルを選択する。 RMSE 𝑡𝑟𝑎𝑖𝑛 = 1 𝑦𝑖 − 𝑓 𝑥Ԧ𝑖 𝑁 𝑖 典型的的な振る舞い RMSE テストデータに対するRMSE 𝑁𝑡𝑒𝑠𝑡 RMSE 𝑡𝑒𝑠𝑡 = 𝑅𝑀𝑆𝐸 𝑡𝑒𝑠𝑡 2 𝑖 𝑅𝑀𝑆𝐸 𝑡𝑟𝑎𝑖𝑛 𝑁𝑡𝑟𝑎𝑖𝑛 α 訓練データに過度に αの選択値 学習=過学習 1 𝑦𝑖 − 𝑓 𝑥Ԧ𝑖 𝑁 関数𝐿𝑟𝑒𝑔 = 𝑦𝑖 − 𝑓 𝑥Ԧ𝑖 𝑖 2 +𝛼 𝑤 𝑛 𝑛 2
(回帰)予測モデル学習指針 目的:「“予測モデルとして”相関が高い関数を得る」 𝑦 ほぼ全観測点を通る関数𝑓 =過学習したモデル ある程度なめらかにした関数𝑓 →より妥当に未知説明変数への 妥当な予測●できることが期待 される。 𝑥Ԧ
予測モデル学習手段 予測モデルとし て相関が高い関 数を得る 1. 観測データ 分割を行う。 2. モデル当て はめを行う 3. モデル評価 を行う 4. モデルを選 択する 訓練データ・テ ストデータに分 ける 訓練データに対 してある関数を 最適化する テストデータに 対して性能評価 指標値を得る 性能評価指標値 から妥当なモデ ルを選択する。 (階層構造の一例)
予測モデル学習手段 訓練データ・テスト データに分ける 一組の訓練・テスト データに分割する。 複数の訓練・テスト データに分割する 訓練・テストデータ割 合を決めて分割する。 交差検定で複数の訓 練・テストデータに分 割する
予測モデル学習手段 訓練データ・テスト データに分ける 懸念:特にデー タインスタンス 数が少ない場合 は分け方の影響 が大きそう。 一組の訓練・テスト データに分割する。 複数の訓練・テスト データに分割する 訓練・テストデータ割 合を決めて分割する。 交差検定で複数の訓 練・テストデータに分 割する (階層構造の一例)
予測モデル学習手段 訓練データ・テスト データに分ける 一組の訓練・テスト データに分割する。 複数の訓練・テスト データに分割する 訓練・テストデータ割 合を決めて分割する。 交差検定で複数の訓 練・テストデータに分 割する (階層構造の一例)
交差検定 5分割の場合 𝒙 𝑦 𝒙1 𝑦1 𝒙𝟐 𝑦2 𝒙𝟑 𝑦3 𝒙𝟒 𝑦4 𝒙𝟓 𝑦5 𝒙𝟔 𝑦6 𝒙7 𝑦7 𝒙8 𝑦8 𝒙9 𝑦9 𝒙10 𝑦10 𝒙11 𝑦11 訓練 データ #1 #2,#3, #1,#3, #1,#2, #1,#2, #1,#2, #4,#5 #4,#5 #4,#5 #3,#5 #3,#4 𝐿の 最適化 𝑓2345 (𝑥) Ԧ #2 回帰 モデル #3 テスト データ #1 #2 #3 #4 評価 指標値 score1 score2 score3 #5 𝑓1234 (𝑥) Ԧ 𝑓1245 (𝑥) Ԧ 𝑓1345 (𝑥) Ԧ 𝑓1235 (𝑥) Ԧ #4 #5 score4 ave(score), stddev(score) score5
予測モデル学習手段 予測モデルとし て相関が高い関 数を得る 1. 観測データ 分割を行う。 2. モデル当て はめを行う 3. モデル評価 を行う 4. モデルを選 択する 訓練データ・テ ストデータに分 ける 訓練データに対 してある関数を 最適化する テストデータに 対して性能評価 指標値を得る 性能評価指標値 から妥当なモデ ルを選択する。 (階層構造の一例)
交差検定 5分割の場合 𝒙 𝑦 𝒙1 𝑦1 𝒙𝟐 𝑦2 𝒙𝟑 𝑦3 𝒙𝟒 𝑦4 𝒙𝟓 𝑦5 𝒙𝟔 𝑦6 𝒙7 𝑦7 𝒙8 𝑦8 𝒙9 𝑦9 𝒙10 𝑦10 𝒙11 𝑦11 訓練 データ #1 𝐿の 最適化 #2 回帰 モデル #3 テスト データ #4 評価 指標値 #5 #2,#3, #1,#3, #1,#2, #1,#2, #1,#2, #4,#5 #4,#5 #4,#5 #3,#5 #3,#4 𝑓2345 (𝑥) Ԧ #1 score1 𝑓1234 (𝑥) Ԧ 𝑓1245 (𝑥) Ԧ 𝑓1345 (𝑥) Ԧ #2 score2 𝑓1235 (𝑥) Ԧ #3 score3 #4 #5 score4 ave(score), stddev(score) score5
予測モデル学習手段 予測モデルとし て相関が高い関 数を得る 1. 観測データ 分割を行う。 2. モデル当て はめを行う 3. モデル評価 を行う 4. モデルを選 択する 訓練データ・テ ストデータに分 ける 訓練データに対 してある関数を 最適化する テストデータに 対して性能評価 指標値を得る 性能評価指標値 から妥当なモデ ルを選択する。 (階層構造の一例)
交差検定 5分割の場合 𝒙 𝑦 𝒙1 𝑦1 𝒙𝟐 𝑦2 𝒙𝟑 𝑦3 𝒙𝟒 𝑦4 𝒙𝟓 𝑦5 𝒙𝟔 𝑦6 𝒙7 𝑦7 𝒙8 𝑦8 𝒙9 𝑦9 𝒙10 𝑦10 𝒙11 𝑦11 訓練 データ #1 𝐿の 最適化 #2 回帰 モデル #3 テスト データ #4 評価 指標値 #5 #2,#3, #1,#3, #1,#2, #1,#2, #1,#2, #4,#5 #4,#5 #4,#5 #3,#5 #3,#4 𝑓2345 (𝑥) Ԧ #1 score1 𝑓1234 (𝑥) Ԧ 𝑓1245 (𝑥) Ԧ 𝑓1345 (𝑥) Ԧ #2 score2 𝑓1235 (𝑥) Ԧ #3 score3 #4 #5 score4 ave(score), stddev(score) score5
交差検定での性能評価 RMSE 平均値 ± 𝜎 理想的な振る舞い 𝑅𝑀𝑆𝐸 𝑡𝑒𝑠𝑡 𝑅𝑀𝑆𝐸 𝑡𝑟𝑎𝑖𝑛 α 過学習領域 α選択値 (見やすくするため に少しだけαの値を ずらして書いた。)
典型的なデータ解析例 𝑥Ԧ ID 説明 説明 変数 変数 a b ID1 𝑜𝑏𝑠 𝑜𝑏𝑠 𝑥1𝑎 𝑥1𝑏 説 目的 明 変数 変 数P 𝑜𝑏𝑠 𝑦1𝑜𝑏𝑠 𝑥1𝑃 ID2 𝑜𝑏𝑠 𝑜𝑏𝑠 𝑥2𝑎 𝑥2𝑏 𝑜𝑏𝑠 𝑦2𝑜𝑏𝑠 𝑥2𝑃 … … IDN … 𝑜𝑏𝑠 obs 𝑥𝑁𝑎 𝑥𝑁𝑏 𝑥Ԧ𝑖 𝑥Ԧ𝑗 𝑥Ԧ𝑘 ID1 i j k ID2 ID3 𝑜𝑏𝑠 𝑥𝑁𝑃 𝑦𝑁𝑜𝑏𝑠 説明変数 index …
説明変数の特徴 典型的な解析例) 平均と標準偏差を求める。 全ての観測データを重ねて書く。 𝑥Ԧ 𝑥Ԧ 平均+𝜎 平均 index 平均−𝜎 index
説明変数の特徴 変数が𝑥1 , 𝑥2 , 𝑥3 と3つとする。 𝑥Ԧ 典型的には 𝑥3 平均+𝜎 1 平均 平均−𝜎 1 2 3 2 3 𝑥3 𝑥1 index 𝑥1
説明変数間の関係(1) 𝑥3 ? 𝑥3 𝑥1 𝑥1 今は𝑥1 , 𝑥2 , 𝑥3 のみなので 容易に分かる。 説明変数が多次元だと目 で判断するのは大変です。 しかし、データ解析学手法 の次元圧縮(主成分解析)で 解析可能です。
説明変数と目的変数との関係 𝑎 > 0, 𝑐 > 0 ●濃淡:𝑦の値 𝑥3 𝑥3 𝑥3 𝑥1 𝑦~𝑎𝑥1 + 𝑐𝑥3 𝑦~𝑎𝑥1 𝑦~𝑐𝑥3 𝑥1 𝑦~𝑎𝑥1 − 𝑐𝑥3 𝑦~𝑎𝑥1 𝑦~ − 𝑐𝑥3 𝑥1 𝑦は𝑥1 , 𝑥3 とは相関 がほぼ無い。 y~𝑓(𝑥2 ) ? 回帰を行う前、 そして回帰予測 モデルの解析に 活かせる。
説明変数間の関係(2) 𝑦 𝑥2 𝑦 カテゴリー分け できれば、 𝑥1 単一モデルで妥当に 回帰できない・・・ 𝑥1 𝑥1 (多次元空間でも、) 説明変数空間で分布が 分離している。 カテゴリー毎に容易に 妥当な回帰モデルが学 習できる。 多次元では人が行うのは大変です。 クラスタリングでカテゴリー分けできます。
データ解析学手法 データ解析学手 法 既に収集された データを用いる 手法 目的のために随 時にデータを収 集する手法 説明変数間の関 係性を見つける =教師なし学習 目的変数の予測 =教師あり学習 𝑦~𝑓(𝑥) Ԧ 量的目的変数 質的目的変数 回帰 分類 量的目的変数 次元圧縮 クラスタリング {𝑥}のみ Ԧ 強化学習 質的目的変数 データ集約 ベイズ最適化 頻出パタンマイ ニング (階層構造の一例)
データ解析学手法の紹介 データ解析学手 法 既に収集された データを用いる 手法 𝑦~𝑓(𝑥) Ԧ 目的変数の予測 =教師あり学習 目的のために随 時にデータを収 集する手法 説明変数間の関 係性を見つける =教師なし学習 {𝑥}のみ Ԧ (階層構造の一例)
データ解析学手法の紹介 データ解析学手 法 既に収集された データを用いる 手法 𝑦~𝑓(𝑥) Ԧ 目的変数の予測 =教師あり学習 目的のために随 時にデータを収 集する手法 説明変数間の関 係性を見つける =教師なし学習 {𝑥}のみ Ԧ (階層構造の一例)
用語 変数のカテゴリー分け 変数 量的変数 質的変数:名前;大小や差を定義できる。 連続変数:数値が連続的に繋がる変数 離散変数:特定の値しか取らない変数。 例)原子番号、陽子数、中性子数 を決めた元素質量 質的変数/カ テゴリー変数 質的変数:名前;大小や差を定義できない。 例)元素名、構造類型名 連続変数 離散変数 (階層構造の一例)
予測モデル 目的変数の 予測 量的変数のもっともらしい関数 を求める=回帰(regression) 質的変数のもっともらしい関数 を求める=分類 (classification) 量的目的変 数の予測 質的目的変 数の予測 回帰 分類 (階層構造の一例)
データ解析学ライブラリの仮定事項(1) 一般的なデータ解析学ライブラリは • 説明変数ベクトル𝑥が等長 Ԧ • 観測データの値に欠けが無い ことを仮定しています。
一般的な回帰モデル 観測データ ID 説明変数a 説明変数b … 説明変数P 目的変数 ID1 𝑜𝑏𝑠 𝑥1𝑎 𝑜𝑏𝑠 𝑥1𝑏 𝑜𝑏𝑠 𝑥1𝑃 𝑦1𝑜𝑏𝑠 ID2 𝑜𝑏𝑠 𝑥2𝑎 𝑜𝑏𝑠 𝑥2𝑏 𝑜𝑏𝑠 𝑥2𝑃 𝑦2𝑜𝑏𝑠 𝑜𝑏𝑠 𝑥𝑁𝑃 𝑦𝑁𝑜𝑏𝑠 … … IDN 𝑜𝑏𝑠 𝑥𝑁𝑎 obs 𝑥𝑁𝑏 説明変数a 説明変数b 未知データ ID … 説明変数P ID1 𝑛𝑒𝑤 𝑥1𝑎 𝑛𝑒𝑤 𝑥1𝑏 𝑛𝑒𝑤 𝑥1𝑃 ID2 𝑛𝑒𝑤 𝑥2𝑎 𝑛𝑒𝑤 𝑥2𝑏 𝑛𝑒𝑤 𝑥2𝑃 … 1. 説明変数のサイズ が同じ。 2. 全てのセルが値を 持つ。
生データと加工済データ また別の例) 第一原理計算による全エネルギー(𝐸)予測問題 𝐸𝑖 = 𝑓(周期構造定義i, {元素・原子位置}i) 生の説明変数 結晶構造ID 周期構造定義 元素・原子位置 全エネル ギー ID1 𝑎Ԧ1 , 𝑏1 , 𝑐Ԧ1 (𝑍𝑎1 , 𝑃𝑎1 ) 𝐸1 ID2 𝑎2 , 𝑏2 , 𝑐Ԧ2 (𝑍𝑎2 , 𝑃𝑎2 ) , (𝑍𝑏2 , 𝑃𝑏2 ) 𝐸2 ID3 𝑎Ԧ3 , 𝑏3 , 𝑐Ԧ3 (𝑍𝑎3 , 𝑃𝑎3 ) , (𝑍𝑏3 , 𝑃𝑏3 ), (𝑍𝑐3 , 𝑃𝑐3 ) 𝐸3 …
第一原理計算による全エネルギー予測問題 の生の説明変数の問題点 元素、原子位置は数が異なりうる。(つまり𝑥が非等長) Ԧ 𝑥が等長では無いので一般的な回帰モデルを使えない。 Ԧ 更に、 𝑎, Ԧ 𝑏, 𝑐順序を変えても同じ周期構造を定義できる。 Ԧ 同元素間で原子位置を交換しても結晶が不変。 元素、原子位置記載順序を変えても結晶が不変。 という特徴を表せない。
説明変数の加工(1) 目的:等長ベクトル𝑥に対する𝑦 Ԧ = 𝑓 𝑥Ԧ の形にしたい。 手段:加工例)動径分布関数RDF(𝑟𝑖 ) ID RDF(𝑟𝑎 ) RDF(𝑟𝒃 ) … RDF(𝑟𝑷 ) 目的変数 ID1 𝑜𝑏𝑠 𝑥1𝑎 𝑜𝑏𝑠 𝑥1𝑏 𝑜𝑏𝑠 𝑥1𝑃 𝑦1𝑜𝑏𝑠 ID2 𝑜𝑏𝑠 𝑥2𝑎 𝑜𝑏𝑠 𝑥2𝑏 𝑜𝑏𝑠 𝑥2𝑃 𝑦2𝑜𝑏𝑠 𝑜𝑏𝑠 𝑥𝑁𝑃 𝑦𝑁𝑜𝑏𝑠 … … IDN 𝑜𝑏𝑠 𝑥𝑁𝑎 obs 𝑥𝑁𝑏 (𝑟1 , 𝑟2 , … , 𝑟𝑃 )を定めると 等長ベクトル 𝑥Ԧ = (𝑅𝐷𝐹 𝑟1 , 𝑅𝐷𝐹 𝑟2 , … , 𝑅𝐷𝐹 𝑟𝑃 ) になる。
データ解析学ライブラリの仮定事項(2) • 無単位 • 説明変数の値の範囲がほぼ同じ
説明変数の加工(2) 例)物体の落下速度の予測の説明変数の単位 • 質量𝑚[重さ] • 摩擦係数𝑘[重さ/時間] • 時間𝑡[時間] 説明変数の単位が異なる。 そして、 • 環境:気体中?液体中? • 物体の重さの範囲:車?隕石?時計?ペン? • 時間:hour, min, sec, msec,… などで想定している値の範囲も異なる。
説明変数の加工(2) 無次元、かつ値の変化幅をほぼ等しくする=データ規格化を行う。 例) • Min-Max Normalization: [0,1]への変換。 • Z-score Normalization: 平均値0, 標準偏差1の分布への 変換。 (データ解析学を適用するライブラリはデータ規格化後の説明変数 を用いることを想定しているからです。)
説明変数の加工まとめ (データ解析学 ライブラリに適 用できる)説明 変数を得る 1. 生の説明変 数を得る 2. 等長ベクト ルへ物理変換を する 3. データ規格 化をする Min-Max Normalization Z-score Normalization (階層構造の一例)
回帰 目的変数が量的変数 回帰 線形回帰 カーネル回帰 ニューラル ネットワーク 回帰 分解木回帰 (階層構造の一例)
回帰 目的変数が量的変数 回帰 線形回帰 カーネル回帰 ニューラル ネットワーク 回帰 分解木回帰 (階層構造の一例)
線形回帰とカーネル回帰 関数𝐿𝑟𝑒𝑔 = 1 σ𝑁 2𝑁 𝑖 𝑦𝑖 − 𝑓 𝑥Ԧ𝑖 2 +𝛼 𝑤 𝑛 𝑛 を最小化 第一項目 線形回帰 カーネル回帰 𝑁 𝑃 𝑓 𝑥Ԧ = 𝑤𝑝 𝑥𝑝 + 𝑤0 𝑝 𝑥Ԧ = 𝑥1 , 𝑥2 , … , 𝑥𝑃 𝑤 = 𝑤, 𝑤2 , … , 𝑤𝑃 𝑓 𝑥Ԧ = 𝑤𝑖 𝐾(𝑥, Ԧ 𝑥Ԧ𝑖 ) カーネル𝐾の例: RBFカーネル:𝐾 𝑥, Ԧ 𝑥′ 𝑖 = exp(−𝛾 𝑥Ԧ − 𝑥′ 2 2 ) RBF=radial distribution function γもハイパーパラメタ。
カーネル回帰 考慮すると評価指標値 が小さくなる点 目的変数 ○の濃淡~|𝑤𝑖 | 𝑁 𝑓 𝑥Ԧ = 𝑤𝑖 𝐾(𝑥, Ԧ 𝑥Ԧ𝑖 ) 𝑖 ? RBFカーネル:距離が近いデー タインスタンスの寄与がガウシア ンの依存性で減衰する。 係数:矛盾するデータインスタン スの寄与を小さくなる。 説明変数 𝒙𝟏 𝒙𝟐 𝒙𝟑 𝒙𝟒 説明変数空間で 距離が 小さい 距離が 大きい 𝒙 𝒙𝟓 𝒙𝟔 𝒙𝟕
類似度と距離 類似度 類似度 類似度実装= 距離 ユークリッド 距離=L2ノル ムと同じ マンハッタン 距離=L1ノル ムと同じ データインス タンス間類似 度 コサイン距離 =ベクトル間 のコサイン (階層構造の一例) cos((𝑥Ԧ1 , 𝑥Ԧ2 )/(|𝑥Ԧ1 ||𝑥Ԧ2 |)) 説明変数間類 似度
距離(類似度実装)選択 𝒙𝟏 𝒙𝟐 𝒙𝟑 𝒙𝟒 𝒙 𝒙𝟓 𝒙𝟔 𝒙𝟕 RDFカーネル データによっては他の距離実 装の方が良いかもしれない。 例) ユークリッド距離 𝐾 𝑥, Ԧ 𝑥 ′ = exp(−𝛾 𝑥Ԧ − 𝑥Ԧ ′ ) 𝐾 𝑥, Ԧ 𝑥 ′ = exp(−𝛾 𝑥Ԧ − 𝑥′ Ԧ 2) 近傍データインスタンスの寄与が (ユークリッド距離)2で減衰する。 ユークリッド距離の一乗で減衰。 マンハッタン距離 𝐾 𝑥, Ԧ 𝑥′ = exp(−𝛾 𝑥Ԧ − 𝑥′ 1 1 ) これらカーネルの距離依存性もまたパラメタ。
一連のIf文(決定木)による回帰モデル 回帰 決定木 If x1 >= xvalue1 then if x2>=xvalu2A then y = yvalue1 else y = yvalue2 Else … Endif 目的変数値は離散値になります。 線形回帰 カーネル回帰 ニューラル ネットワーク 回帰 決定木回帰 単一決定木回 帰 アンサンブル 決定木回帰 ランダムフォ レスト回帰 (階層構造の一例)
分類 目的変数 値の予測 量的目的 変数 質的目的 変数 回帰 分類 質的変数: 元素名:Si, H, Co, … 構造類型: bcc, fcc, hcp
分類 ロジスティック回帰 線形関数𝑓(𝑥)に対して、 Ԧ Ln罰則項を含む𝐿𝑐𝑙𝑠 = 𝑤 𝑛 σ𝑖 log(exp −𝑦𝑖 𝑓 𝑥Ԧ𝑖 )2 を最小化 + 𝐶 𝑛 二値分類の場合: あるクラスと予測される確率 1 𝑃 𝑥Ԧ = 1 + exp(−𝑓 𝑥 ) 別なクラスと予測される確率は1 − 𝑃 𝑥Ԧ
分類 ロジスティック回帰 多値分類の手法例: One-vs-Rest法: クラス1確率: P1 𝑥Ԧ ,クラス1でない確率: 1 − 𝑃1 𝑥Ԧ クラス2確率: P2 𝑥Ԧ ,クラス2でない確率: 1 − 𝑃2 𝑥Ԧ クラス3確率: P2 𝑥Ԧ ,クラス3でない確率: 1 − 𝑃3 𝑥Ԧ 最も確率が大きいクラス名を予測値とする。
分類 ロジスティック 回帰 分類 ロジスティッ ク回帰 ロジスティッ ク回帰, n=1 決定木分類 ロジスティッ ク回帰, n=2 二値分類ロジス ティック回帰 多値分類ロジス ティック回帰 One-vs-Rest法 を用いたロジス ティック回帰 多項ロジス ティック回帰 (階層構造の一例)
分類 データ分割手法は回帰と同じく訓練データとテス トデータに分け、更に交差検定などを用います。
予測モデル学習手段 予測モデルとし て相関が高い関 数を得る 1. 観測データ 分割を行う。 2. モデル当て はめを行う 3. モデル評価 を行う 4. モデルを選 択する 訓練データ・テ ストデータに分 ける 訓練データに対 してある関数を 最適化する テストデータに 対して性能評価 指標値を得る 性能評価指標値 からモデルを選 択する。 (階層構造の一例)
分類評価指標(1) 評価指標 混同行列例 予測値 分類評価 指標 混同行列 二値分類 混同行列 観測値 回帰評価 指標 bcc bcc 8 fcc 1 hcp 3 misc 1 多値分類 混同行列 (階層構造の一例) fcc 0 5 2 2 hcp misc 6 0 6 8 17 2 9 33
分類評価指標(2) 二値分類混同行列 評価指標 分類評価 指標 観測値 回帰評価 指標 予測値 混同行列 二値分類 混同行列 多値分類 混同行列 (階層構造の一例) 陽性 陰性 陽 性 真陽性 True Positive (TP) 偽陰性 False Negative (FN) 陰 性 偽陽性 False Positive (FP) 真陰性 True Negative (FN)
分類評価指標(3) 評価指標 回帰評価指標 分類評価指標 混同行列から 得られる評価 指標 混同行列 正答率 再現率 (階層構造の一例) 適合率 F1スコア
分類評価指標(4) 混同行列例 観測値 予測値 bcc fcc bcc fcc hcp misc 8 1 3 1 0 5 2 2 hcp misc 6 0 6 8 17 2 9 33 正答率(Accuracy)=(8+5+17+33)/103=0.61 再現率(Recall):fcc再現率=5/(1+5+6+8)=0.25 適合率(Precision):fcc適合率=5/(5+2+2)=0.56 𝑅𝑒𝑐𝑎𝑙𝑙×𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑡𝑜𝑛 F1スコア=2 𝑅𝑒𝑐𝑎𝑙𝑙+𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 全体の指標に対しては、例えば、加重平均を取 る。
分類評価指標(4) 混同行列例 観測値 予測値 bcc fcc bcc fcc hcp misc 8 1 3 1 0 5 2 2 hcp misc 6 0 6 8 17 2 9 33 正答率(Accuracy)=(8+5+17+33)/103=0.61 再現率(Recall):fcc再現率=5/(1+5+6+8)=0.25 適合率(Precision):fcc適合率=5/(5+2+2)=0.56 𝑅𝑒𝑐𝑎𝑙𝑙×𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑡𝑜𝑛 F1スコア=2 𝑅𝑒𝑐𝑎𝑙𝑙+𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 全体の指標に対しては、例えば、加重平均を取 る。
分類評価指標(4) 混同行列例 観測値 予測値 bcc fcc bcc fcc hcp misc 8 1 3 1 0 5 2 2 hcp misc 6 0 6 8 17 2 9 33 正答率(Accuracy)=(8+5+17+33)/103=0.61 再現率(Recall):fcc再現率=5/(1+5+6+8)=0.25 適合率(Precision):fcc適合率=5/(5+2+2)=0.56 𝑅𝑒𝑐𝑎𝑙𝑙×𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑡𝑜𝑛 F1スコア=2 𝑅𝑒𝑐𝑎𝑙𝑙+𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 全体の指標に対しては、例えば、加重平均を取 る。
分類評価指標(4) 混同行列例 観測値 予測値 bcc fcc bcc fcc hcp misc 8 1 3 1 0 5 2 2 hcp misc 6 0 6 8 17 2 9 33 正答率(Accuracy)=(8+5+17+33)/103=0.61 再現率(Recall):fcc再現率=5/(1+5+6+8)=0.25 適合率(Precision):fcc適合率=5/(5+2+2)=0.56 𝑅𝑒𝑐𝑎𝑙𝑙×𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑡𝑜𝑛 F1スコア=2 𝑅𝑒𝑐𝑎𝑙𝑙+𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 全体の指標に対しては、例えば、加重平均を取 る。
分類評価指標(4) 混同行列例 観測値 予測値 bcc fcc bcc fcc hcp misc 8 1 3 1 0 5 2 2 hcp misc 6 0 6 8 17 2 9 33 正答率(Accuracy)=(8+5+17+33)/103=0.61 再現率(Recall):fcc再現率=5/(1+5+6+8)=0.25 適合率(Precision):fcc適合率=5/(5+2+2)=0.56 𝑅𝑒𝑐𝑎𝑙𝑙×𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑡𝑜𝑛 F1スコア=2 𝑅𝑒𝑐𝑎𝑙𝑙+𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 全体の指標に対しては、例えば、加重平均を取 る。
データ解析学手法の紹介 データ解析学手 法 既に収集された データを用いる 𝑦~𝑓(𝑥) Ԧ 目的変数の予測 =教師あり学習 目的のために随 時にデータを収 集する 説明変数間の関 係性を見つける =教師なし学習 {𝑥}のみ Ԧ
説明変数間の関係性を見つける {𝑥}のみ Ԧ 説明変数間の関係 性を見つける=教 師なし学習 量的説明変数 質的説明変数 低次元表現を 得る カテゴリー分 けをする 次元圧縮 クラスタリン グ (階層構造の一例)
説明変数間の関係性を見つける {𝑥}のみ Ԧ 説明変数間の関係 性を見つける=教 師なし学習 量的説明変数 質的説明変数 低次元表現を 得る カテゴリー分 けをする 次元圧縮 クラスタリン グ (階層構造の一例)
説明変数間の関係性(1) {𝑥}のみ Ԧ ID 説明 説明 変数a 変数b … 説明 目的 変数P 変数 ID1 𝑜𝑏𝑠 𝑥1𝑎 𝑜𝑏𝑠 𝑥1𝑏 𝑜𝑏𝑠 𝑥1𝑃 𝑦1𝑜𝑏𝑠 ID2 𝑜𝑏𝑠 𝑥2𝑎 𝑜𝑏𝑠 𝑥2𝑏 𝑜𝑏𝑠 𝑥2𝑃 𝑦2𝑜𝑏𝑠 𝑜𝑏𝑠 𝑥𝑁𝑃 𝑦𝑁𝑜𝑏𝑠 … … IDN 𝑜𝑏𝑠 𝑥𝑁𝑎 obs 𝑥𝑁𝑏 説明変数サイズ𝑃が多くなることでデータインスタンス間の関係性が分 からなくなりがち→次元圧縮:特徴を保ったまま説明変数を低次元で表 現する。
説明変数間の関係性(2) クラスタリング:類似度を用いたデータ空間のカテゴリー分け を通して{𝑥}の特徴を得る。 Ԧ 𝑥2 𝑦 𝑥1 𝑥1
説明変数間の関係性を見つける {𝑥}のみ Ԧ 説明変数間の関係 性を見つける=教 師なし学習 量的説明変数 質的説明変数 低次元表現を 得る グループ分け をする 次元圧縮 クラスタリン グ (階層構造の一例)
次元圧縮 ID 説明 変数 a 説明 変数 b ID1 𝑜𝑏𝑠 𝑥1𝑎 ID2 𝑜𝑏𝑠 𝑥2𝑎 説明 変数 P 目的 変数 𝑜𝑏𝑠 𝑥1𝑏 𝑜𝑏𝑠 𝑥1𝑃 𝑦1𝑜𝑏𝑠 𝑜𝑏𝑠 𝑥2𝑏 𝑜𝑏𝑠 𝑥2𝑃 𝑦2𝑜𝑏𝑠 … 𝑜𝑏𝑠 𝑥𝑁𝑃 𝑦𝑁𝑜𝑏𝑠 次元圧縮 … … IDN 低次元表現を 得る 𝑜𝑏𝑠 𝑥𝑁𝑎 obs 𝑥𝑁𝑏 説明変数行列:𝑋、サイズ 𝑁, 𝑃 一般に非正方行列 距離行列に変 換した𝑋を用 いた次元圧縮 𝑋をそのまま 用いた次元圧 縮 主成分分解 (PCA) 全距離を用い た多様体学習 距離範囲を制 限した多様体 学習 MDS t-SNE (階層構造の一例)
次元圧縮 ID 説明 変数 a 説明 変数 b ID1 𝑜𝑏𝑠 𝑥1𝑎 ID2 𝑜𝑏𝑠 𝑥2𝑎 説明 変数 P 目的 変数 𝑜𝑏𝑠 𝑥1𝑏 𝑜𝑏𝑠 𝑥1𝑃 𝑦1𝑜𝑏𝑠 𝑜𝑏𝑠 𝑥2𝑏 𝑜𝑏𝑠 𝑥2𝑃 𝑦2𝑜𝑏𝑠 … 𝑜𝑏𝑠 𝑥𝑁𝑃 𝑦𝑁𝑜𝑏𝑠 次元圧縮 … … IDN 低次元表現を 得る 𝑜𝑏𝑠 𝑥𝑁𝑎 obs 𝑥𝑁𝑏 説明変数行列:𝑋、サイズ 𝑁, 𝑃 一般に非正方行列 距離行列に変 換した𝑋を用 いた次元圧縮 𝑋をそのまま 用いた次元圧 縮 主成分分解 (PCA) 全距離を用い た多様体学習 距離範囲を制 限した多様体 学習 MDS t-SNE (階層構造の一例)
主成分分解(PCA) 分布の長軸から順に回転させた変数の組み合わせ(変 数軸)を選ぶ。 𝑥2 PCA2 PCA1 𝑥1
次元圧縮:特異値分解と主成分分解 𝑋(サイズ 𝑁, 𝑃 )の特異値分解(SVD) 𝑋 = 𝑈𝑆𝑊 𝑇 𝑠1 0 0 0 0 𝑠2 0 S= 0 ⋱ 0 𝑠𝑖 ≥ 0と取れる。大きい順に並べる。 低ランク近似 S′ = 0 𝑠2 0 0 として 𝑋′ = 𝑈𝑆′𝑊 𝑇 𝑋’は低ランク近似行列 X’ = X − 𝑋ത として 𝑁 > 𝑃では 𝑠1 0 0 𝑋の主成分分解(PCA) 0 0 0 Σ= 特異値分解 1 𝑋𝑇𝑋 𝑁−1 Σ = 𝑉𝐴𝑉 𝑇 𝑎1 0 0 𝐴 = 0 𝑎2 0 0 0 ⋱ 𝑎𝑖 ≥ 0と取れる。大きい順に並べる q次元目の寄与率= 𝑎𝑞 / σ𝑁 𝑞 𝑎𝑞 𝑄 Q次元目までの累積寄与率=Σ𝑞 𝑎𝑞 / σ𝑁 𝑞 𝑎𝑞 (説明変数間とデータインスタンス間がある。)
次元圧縮 低次元表現を 得る 次元圧縮 距離行列に変 換した𝑋を用 いた次元圧縮 𝑋をそのまま 用いた次元圧 縮 主成分分解 (PCA) 全距離を用い た多様体学習 距離範囲を制 限した多様体 学習 MDS t-SNE 距離関係を(あ る程度)保った まま、低次元表 現を求める手法。 (階層構造の一例)
説明変数間の関係性を見つける {𝑥}のみ Ԧ 説明変数間の関係 性を見つける=教 師なし学習 量的説明変数 質的説明変数 低次元表現を 得る カテゴリー分 けをする 次元圧縮 クラスタリン グ (階層構造の一例)
クラスタリング クラスタリング 類似度 各クラスタが独立 クラスタ間に系統 的な関係がある データインス タンス間類似 度 等方的なクラスタ リング k-Mean法 非等方的なクラス タング 階層クラスタリン グ法 ガウス混合分布法 上位クラスタ間距 離定義が異なる階 層クラスタリング 法 (階層構造の一例) 説明変数間類 似度
クラスタリング クラスタリング 類似度 各クラスタが独立 クラスタ間に系統 的な関係がある データインス タンス間類似 度 等方的なクラスタ リング k-Mean法 非等方的なクラス タング 階層クラスタリン グ法 ガウス混合分布法 上位クラスタ間距 離定義が異なる階 層クラスタリング 法 (階層構造の一例) 説明変数間類 似度
各クラスタが独立である手法 k-Means法 ガウス混合法 等方的なクラスタリング 非等方的なクラスタリング クラスター数(K) クラスター中心𝜇Ԧ𝑘 (𝑘) クラスタ𝐶𝑘 に属するデータインスタンス𝑥Ԧ𝑖 クラスター数(K) クラスター中心𝜇Ԧ𝑘 分散共分散行列Σ𝑘 各クラスタへの寄与確率 距離の和 𝐾 𝑁 (𝑘) 𝐽 = 𝑥Ԧ𝑖 𝑘 𝑖 を最小化する。 − 𝜇Ԧ𝑘 2 𝑁 𝑥Ԧ 𝜇, Ԧ Σ ~exp(− 1 2 𝑥Ԧ − 𝜇 𝑇 Σ −1 𝑥Ԧ − 𝜇 ) 𝐾 𝑝 𝑥Ԧ = 𝑤𝑘 𝑁 𝑥Ԧ 𝜇Ԧ𝑘 , Σ𝑘 𝑘
階層クラスタリング クラスタリン グ 類似度 クラスタ間に 系統的な関係 がある 各クラスタが 独立 等方的なクラ スタリング 非等方的なク ラスタリング 階層クラスタ リング法 k-Mean法 ガウス混合分 布法 上位クラスタ 間が異なる距 離定義方法 データインス タンス間類似 度 (階層構造の一例) • ある距離が近い順にクラスタを階層的に生成する。 • 上位のクラスター間の距離実装には様々な定義がある。 説明変数間類 似度
データ解析学手法 データ解析学手 法 既に収集された データを用いる 目的変数の予測 =教師あり学習 目的のために随 時にデータを収 集する 説明変数間の関 係性を見つける =教師なし学習 強化学習 ベイズ最適化 (階層構造の一例)
予測モデル学習手段 規格化や回帰以外の手法も紹介したので データ解析過程を再び図示します。
データ解析学手法の四過程 データから 知見を得る 1. データを 収集する 2. データを 加工する 3. データか ら学習する 4. 結果の 解釈を行う (階層構造の一例)
データ解析学手法の四過程 データから知 見を得る 1. データを 収集する 1. データを 観測する 2. データを 加工する 2. 観測デー タを生の {𝑥, Ԧ 𝑦}に表す 3. データか ら学習する 4. 結果の解 釈を行う (階層構造の一例)
データ解析学手法の四過程 データから知見 を得る 1. データを収集 する 2. データを加工 する 2. 説明変数の等 長ベクトルへ物 理的変換を行う 3. データから学 習する 3. 説明変数の データ規格化を する 4. 結果の解 釈を行う (階層構造の一例)
データ解析学手法の四過程 データから知見 を得る 1. データを収 集する 2. データを加 工する 3. データから 学習する 4. 結果の解 釈を行う データ解析学手 法を組み合わせ て適用する。 (階層構造の一例)
データ解析学手法の四過程 途中結果、最終結果に対して 4. 結果の解 釈を行う データから 知見を得る 可視化 1. データを 収集する 2. データを 加工する 3. データか ら学習する 結果をテキス トで表示する 結果を図示す る (階層構造の一例)
データ解析学手法の四過程:第一原理計算の例 観測データ データ 収集 未知データ (結晶構造、全エネルギー𝑦 𝑟𝑎𝑤 ) 説明変数への 変換関数 加工済み説明変数𝑥Ԧ 結 果 解 釈 結晶構造 説明変数𝑥Ԧ 𝑛𝑒𝑤 規格化関数作成と規格化 データ 加工 規格化された加工済み 説明変数𝑥Ԧ new 規格化された加工済み 説明変数𝑥Ԧ データ分離 訓練データ (𝑥Ԧ 𝑡𝑟𝑎𝑖𝑛 , 𝑦 𝑡𝑟𝑎𝑖𝑛 ) データ からの 学習 テストデータ (𝑥Ԧ 𝑡𝑒𝑠𝑡 , 𝑦 𝑡𝑒𝑠𝑡 ) モデル学習 𝑦 ~𝑓(𝑥Ԧ 𝑡𝑎𝑖𝑛 ) 𝑡𝑟𝑎𝑖𝑛 予測𝑦 𝑡𝑟𝑎𝑖𝑛 =𝑓(𝑥Ԧ 𝑡𝑟𝑎𝑖𝑛 ) 予測𝑦 𝑡𝑒𝑠𝑡 =𝑓(𝑥Ԧ 𝑡𝑒𝑠𝑡 ) 訓練データ 性能指標 テストデータ 性能指標 予測𝑦 𝑛𝑒𝑤 =𝑓(𝑥Ԧ 𝑛𝑒𝑤 )
質的変数から量的変数への変換 カテゴリ変数である元素名の変換 変換後の A1-x-yBxCyの イメージ 生データ 化学式 物性量 𝐴𝑎 𝐵𝑏 𝑓(𝐴𝑎 𝐵𝑏 ) 𝐴𝑐 𝐶𝑑 𝑓(𝐴𝑎 𝐶𝑑 ) 𝐴𝑑 𝐵𝑒 𝐶𝑓 𝑓(𝐴𝑑 𝐵𝑒 𝐶𝑓 ) … … ABCを異なる変数軸として扱う。 質的変数 である A,B,C の変換 A B ~相図 C ABCをある尺度の量的変数に変換し、 尺度ごとに異なる説明変数とする。 1 A,B,C,D,…は元素名 a,b,d,dは元素比 説明数1= 𝑁 σ𝑎 組成比(𝑎)原子番号(𝑎) 1 𝑁 1 説明数3= 𝑁 σ𝑎 組成比 説明数2= σ𝑎 組成比(𝑎)単体原子密度(𝑎) … 𝑎 電気陰性度(𝑎)
補足(2)
よくある質問 「説明変数はどう選択するのか?」 この質問がなぜ起きたのか: (仮定:演繹法の世界では) 原理から出発した最適な選択法があるはずだから。 仮定は誤り。データ解析学は演繹法の世界の話では無い。
The fourh paradigm 主体 帰納法 演繹法 人が 第一段階 仮説の検証→法則 第二段階 法則の適用 計算機が 第四段階 “新帰納法” 第三段階 シミュレーション The Fourth Paradigm: Data-intensive Scientific Discovery, Tony Hey, Microsoft Pr.
帰納法と新帰納法の違い 主体の変更、量の変更 第一段階/帰納法 人が 法則仮説 人が 事実と 合うか? 妥当な法則 第四段階/“新機能法”
妥当な説明変数 質問:「説明変数はどう選択するのか?」 答え:「新機能法なので試行錯誤で妥当なものを選択する。」 他にも • ハイパーパラメタの最適化 • 回帰をするとして • 回帰モデルの選択 • カーネル回帰の場合 にカーネルの形 なども試行錯誤の対象になる。
補足(3)
予測モデルと説明変数 仮想的な全データ 観測データ 訓練 データ テスト データ モデル学習 妥当性の評価 予測モデル 利用 説明変数 未知 データ 適用 適用 予測モデルだけでな く、説明変数も未知 データに適用するよ うに作成(加工)する。
補足(4)
データ解析学“部族”のカテゴリー分け例 データ解析 学者 Symbolist 論理: 決定木 Connectionist 脳の動き: ニューラル ネットワーク Evolutionist 生物: 進化論的手法 Bayesian 確率、ノイズ を取り入れる Analogizer 類似性を用いた手 法:カーネル回帰、 多様体学習。 The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World, Pedro Domingos, Basic Books
以上です。