t-SNE（t分布型確率的近傍埋め込み法）による高次元データの可視化について

2K Views

October 20, 24

#t-sne #高次元データ #t-SNE #次元削減 #データ可視化 #機械学習

スライド概要

Masato MIWADA

@masato_miwada

スライド一覧

土木技術者として社会インフラの維持管理業務に携わっておりました。今は第二のキャリアとしてAI・機械学習技術者としてメーカーにて仕事をしています。学生時代、「動画像による洪水流の表面流速計測技術」について研究開発しておりました。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

河川流計測における画像解析技術の実用化

stiv float-ptv 河川工学土木工学画像計測

Masato MIWADA 2.6K

偏りのある時系列データの分類について

time series deep learning

Masato MIWADA 2.2K

畳み込みニューラルネットワークによる画像分類について

cnn deep learning image classification

Masato MIWADA 1.4K

画像による脳腫瘍の検出

yolov8 sam object detection ai deep learning

Masato MIWADA 852

慣性センサーログの効果的な可視化と分類について

deep learning t-sne

Masato MIWADA 345

河川流計測における画像解析技術の実用化

stiv float-ptv 河川工学土木工学画像計測

Masato MIWADA 193

各ページのテキスト

t-SNE（t分布型確率的近傍埋め込み法）による高次元データの可視化について令和6年5月16日三和田将人

１概要 • t-SNE（t-Distributed Stochastic Neighbor Embedding)：t分布型確率的近傍埋め込み法）は、４次元以上の高次元データを２、３次元に落とし込むための次元削減アルゴリズム。 • Geoffrey Hinton（ジェフリー・ヒントン）氏が2008年に開発した手法。 • 主成分分析(PCA）や多次元尺度構成法（MDS）法に比べ、「次元は異なるが類似しているデータ」に対して低次元でも近くに分類できる。【Swiss Role構造】 @kenmatsu4(まつけん)氏, Qiita, "Variational Autoencoder徹底解説", https://qiita.com/kenmatsu4/items/b029d697e9995d93aa24, 2017.06

１概要（補足：t-SNEでSwiss roll構造を可視化したら？）データ化学工学研究室(金子研究室)＠明治大学理工学部応用化学科, "t-distributed Stochastic Neighbor Embedding (t-SNE) ～データの可視化に特化した手法～", https://datachemeng.com/tsne/ , （最終アクセス日：令和6年5月15日）

https://datachemeng.com/tsne/

２ t-SNEの特徴ポイント • 高次元での距離分布を低次元でも（可能な限り）表現できるよう変換している。 • 名前のとおり、「距離の推定」に（Studentの）t-分布を仮定している。 • 次元の高いデータの可視化に有効そもそも、なぜ可視化は必要か？ • そのデータを生み出している、事象をより正確に理解する。 • 機械学習で用いるときに、適切なデータを選ぶため。 • 予測結果やモデルの逆解析の結果の議論ブラックボックス状態で機械学習を使わないため。

３詳細（１/４） SNEについて（2002年にGeoffrey Hinton氏が開発） • データ間の距離（Euclid距離）を条件付き確率として仮定 • SNEでは正規分布（Gaussian）に基づき確率的にデータの位置を推定 • Clowding問題（次元を落としたときにデータが混雑下してしまう）という欠点がある。 t-SNE法について以下の改良によってClowding問題を解消し、より可視化しやすくしている。 1. 損失関数の対称化と最小化距離の推定を同時確率に変更することで、データの局所構造を保持しながらも見分けやすくしている 2. Studentのt分布を仮定正規分布に比べて裾野が高いので、Clowding問題を避けることができる

３詳細（２/４） t-SNE法について 1. 損失関数の対称化と最小化距離の推定を同時確率に変更することで、データの局所構造を保持しながらも見分けやすくしている。 t-SNE SNE C：損失関数 KL（~）：KLダイバージェンス 2つの確率分布の違いを数量化する関数 Pji：データ間の距離についての同時確率 qji：次元削減後のデータ間の距離についての同時確率 C：損失関数 KL（~）：KLダイバージェンス 2つの確率分布の違いを数量化する関数 Pj|i：データ間の距離についての条件付き確率 qj|i：次元削減後のデータ間の距離についての条件付き確率

３詳細（３/４） t-SNE法について 2. Studentのt分布を仮定（自由度：n=１）正規分布に比べて裾野が高いので、Clowding問題を避けることができる

３詳細（４/４） t-SNE法についてデメリット 1. 可視化以外では使えない。次元圧縮で構造化されたデータを保持できない 2. 次元の呪いに弱い。「特徴量が多い→より多くの入力データが必要→ノイズも多くなる」ことで、t-SNEで生成されるクラスター（データの集まり）の構造が大きく変わる 3. 損失関数が非凸関数であるため、最適化が難しい（非凸関数については、「最適化の数理—応用数理の視点, https://ocw.utokyo.ac.jp/lecture_files/gf_06/7/notes/ja/07murota.pdf」を参考）

https://ocw.u-tokyo.ac.jp/lecture_files/gf_06/7/notes/ja/07murota.pdf

10.

４実際の使用例（１/２）スマートフォンの慣性センサーログから人間の運動を分類する • データソース https://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones （データセットの説明） • 慣性センサーログから得られたデータに信号処理などを施して用意された561 の特徴量から、６つの行動パターンを分類する。（n=5149）特徴量の大まかな分類 • 身体加速度計（xyz軸ごと） • 重力加速度計(xyz軸ごと） • 加加速度（加速度の時間微分値）データ（3軸） • 角運動量データ（3軸）上記のそれぞれに対する周波数データ× 各種統計量（平均、絶対値、信号エントロピー等）目的変数 LAYING STANDING SITTING WALKING WALKING_UPSTAIRS WALKING_DOWNSTAIRS precision 1 0.96 0.96 0.99 0.99 1 recall 1 0.96 0.96 1 0.99 0.99

https://archive.ics.uci.edu/ml/datasets/Human Activity Recognition Using Smartphones

11.

４実際の使用例（１/２）スマートフォンの慣性センサーログから人間の運動を分類する • データソース https://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones （データセットの説明） • 慣性センサーログから得られたデータに信号処理などを施して用意された561 の特徴量から、６つの行動パターンを分類する。（n=5149）目的変数 LAYING STANDING SITTING WALKING WALKING_UPSTAIRS WALKING_DOWNSTAIRS precision 1 0.96 0.96 0.99 0.99 1 recall 1 0.96 0.96 1 0.99 0.99

https://archive.ics.uci.edu/ml/datasets/Human Activity Recognition Using Smartphones

12.

４実際の使用例（２/２）（データセットの説明） • 慣性センサーログから得られたデータに信号処理などを施して用意された561 の特徴量から、６つの行動パターンを分類する。（n=5149）

13.

５考察「STANDING」と「SITTING」が重なって描画されている。実際にSVCで分類モデルを作成し評価したところ、上記の２つが特に検出できていなかった。 LAYING STANDING SITTING WALKING WALKING_UPSTAIRS WALKING_DOWNSTAIRS accuracy macro avg weighted avg precision 1 0.96 0.96 0.99 0.99 1 0.98 0.98 recall f1-score support 1 1 1016 0.96 0.96 895 0.96 0.96 926 1 0.99 853 0.99 0.99 682 0.99 0.99 777 0.98 5149 0.98 0.98 5149 0.98 0.98 5149

14.

まとめとこれから • t-SNEは高次元の特徴量データを２，３次元で描画するための次元削減アルゴリズム。 • これを用いることで、多くの特徴量で作成された学習モデルの出力結果の説明に説得力を持たせることもできる。 • 2018年以降には、t-SNEの、「次元の呪い」や「描画にしか使えない」という欠点を克服し、より可視化力を向上させた「UMAP（１）」及び「DensMAP（２）」という手法も開発されている。 • 今回、高次元の特徴量の可視化という視点を得たので、次は上記の手法について研究したい。 1. Leland McInnes, John Healy, James Melville, "UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction", https://arxiv.org/abs/1802.03426, 2018. 2. Narayan, A., Berger, B. & Cho, H. "Assessing single-cell transcriptomic variability through densitypreserving data visualization." Nature Biotechnology, https://www.nature.com/articles/s41587-02000801-7 , 2021

15.

参考文献一覧（１/２） 1. Laurens van der Maaten , Geoffrey Hinton , "Visualizing Data using t-SNE", Journal of Machine Learning Research, https://lvdmaaten.github.io/publications/papers/JMLR_2008.pdf, 2008.11 2. @g-k氏, Qiita, "t-SNEを理解して可視化力を高める”, https://qiita.com/gk/items/120f1cf85ff2ceae4aba , 2021.10.08（最終アクセス2024.05.15） 3. @sakami氏, Qiita, "t-SNE解説", https://qiita.com/sakami/items/bb466161489771f7d2e9 , 2020.08, （最終アクセス2024.05.15） 4. @hkharmfulbear氏, Qiita, "次元圧縮を片っ端から試してみた（t-SNE, PCA, MDS, UMAP）", https://qiita.com/hkharmfulbear/items/a19dff8f3c637fa3bc12, 2022.03, （最終アクセス2024.05.15） 5. @kenmatsu4(まつけん)氏, Qiita, "Variational Autoencoder徹底解説", https://qiita.com/kenmatsu4/items/b029d697e9995d93aa24, 2017.06,（最終アクセス2024.05.15） 6. データ化学工学研究室(金子研究室)＠明治大学理工学部応用化学科, "t-distributed Stochastic Neighbor Embedding (t-SNE) ～データの可視化に特化した手法～", https://datachemeng.com/tsne/ , （最終アクセス2024.05.15）

16.

参考文献一覧（２/２） 7. 室田一雄, 東京大学計数工学科及び数理情報学専攻 - 俯瞰講義 (数理の世界第 7回) , "最適化の数理—応用数理の視点", https://ocw.u-tokyo.ac.jp/lecture_files/gf_06/7/notes/ja/07murota.pdf, 2007.06 8. Leland McInnes, John Healy, James Melville, "UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction", https://arxiv.org/abs/1802.03426, 2018. 9. Narayan, A., Berger, B. & Cho, H. "Assessing single-cell transcriptomic variability through densitypreserving data visualization." Nature Biotechnology, https://www.nature.com/articles/s41587-02000801-7 , 2021 • データソース https://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones • 引用元 Davide Anguita, Alessandro Ghio, Luca Oneto, Xavier Parra and Jorge L. Reyes-Ortiz. "A Public Domain Dataset for Human Activity Recognition Using Smartphones". 21th European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning, ESANN 2013. Bruges, Belgium 2426 April 2013.

t-SNE（t分布型確率的近傍埋め込み法）による高次元データの可視化について

Masato MIWADA

関連スライド

河川流計測における画像解析技術の実用化

偏りのある時系列データ の分類について

畳み込みニューラルネットワークによる画像分類について

画像による脳腫瘍の検出

慣性センサーログの効果的な可視化と分類について

河川流計測における画像解析技術の実用化

各ページのテキスト

偏りのある時系列データの分類について