758 Views
October 20, 24
スライド概要
writing now...
t-SNE(t分布型確率的近傍埋め込み法) による高次元データの可視化について 令和6年5月16日 三和田 将人
1 概要 • t-SNE(t-Distributed Stochastic Neighbor Embedding):t分布型確率的近傍埋め 込み法)は、4次元以上の高次元データを2、3次元に落とし込むための次元削 減アルゴリズム。 • Geoffrey Hinton(ジェフリー・ヒントン)氏が2008年に開発した手法。 • 主成分分析(PCA)や多次元尺度構成法(MDS)法に比べ、「次元は異なるが類 似しているデータ」に対して低次元でも近くに分類できる。 【Swiss Role構造】 @kenmatsu4(まつけん)氏, Qiita, "Variational Autoencoder徹底解説", https://qiita.com/kenmatsu4/items/b029d697e9995d93aa24, 2017.06
1 概要(補足:t-SNEでSwiss roll構造を可視化したら?) データ化学工学研究室(金子研究室)@明治大学 理工学部 応用化学科, "t-distributed Stochastic Neighbor Embedding (t-SNE) ~データの可視化に特化した手法~", https://datachemeng.com/tsne/ , (最終アクセス日:令和6年5月15日)
2 t-SNEの特徴 ポイント • 高次元での距離分布を低次元でも(可能な限り)表現できるよう変換してい る。 • 名前のとおり、「距離の推定」に(Studentの)t-分布を仮定している。 • 次元の高いデータの可視化に有効 そもそも、なぜ可視化は必要か? • そのデータを生み出している、事象をより正確に理解する。 • 機械学習で用いるときに、適切なデータを選ぶため。 • 予測結果やモデルの逆解析の結果の議論 ブラックボックス状態で機械学習を使わないため。
3 詳細(1/4) SNEについて(2002年にGeoffrey Hinton氏が開発) • データ間の距離(Euclid距離)を条件付き確率として仮定 • SNEでは正規分布(Gaussian)に基づき確率的にデータの位置を推定 • Clowding問題(次元を落としたときにデータが混雑下してしまう)という欠点 がある。 t-SNE法について 以下の改良によってClowding問題を解消し、より可視化しやすくしている。 1. 損失関数の対称化と最小化 距離の推定を同時確率に変更することで、データの局所構造を保持しながらも見分け やすくしている 2. Studentのt分布を仮定 正規分布に比べて裾野が高いので、Clowding問題を避けることができる
3 詳細(2/4) t-SNE法について 1. 損失関数の対称化と最小化 距離の推定を同時確率に変更することで、データの局所構造を保持しながらも見分けや すくしている。 t-SNE SNE C:損失関数 KL(~):KLダイバージェンス 2つの確率分布の違い を数量化する関数 Pji: データ間の距離についての 同時確率 qji: 次元削減後のデータ間の距 離についての同時確率 C:損失関数 KL(~):KLダイバージェンス 2つの確率分布の違い を数量化する関数 Pj|i: データ間の距離についての 条件付き確率 qj|i: 次元削減後のデータ間の距 離についての条件付き確率
3 詳細(2/4) t-SNE法について 1. 損失関数の対称化と最小化 距離の推定を同時確率に変更することで、データの局所構造を保持しながらも見分けや すくしている。 t-SNE SNE C:損失関数 KL(~):KLダイバージェンス 2つの確率分布の違い を数量化する関数 Pji: データ間の距離についての 同時確率 qji: 次元削減後のデータ間の距 離についての同時確率 C:損失関数 KL(~):KLダイバージェンス 2つの確率分布の違い を数量化する関数 Pj|i: データ間の距離についての 条件付き確率 qj|i: 次元削減後のデータ間の距 離についての条件付き確率
3 詳細(3/4) t-SNE法について 2. Studentのt分布を仮定(自由度:n=1) 正規分布に比べて裾野が高いので、Clowding問題を避けることができる
3 詳細(4/4) t-SNE法について デメリット 1. 可視化以外では使えない。 次元圧縮で構造化されたデータを保持できない 2. 次元の呪いに弱い。 「特徴量が多い→より多くの入力データが必要→ノイズも多くなる」ことで、t-SNEで生成 されるクラスター(データの集まり)の構造が大きく変わる 3. 損失関数が非凸関数であるため、最適化が難しい (非凸関数については、「最適化の数理—応用数理の視点, https://ocw.utokyo.ac.jp/lecture_files/gf_06/7/notes/ja/07murota.pdf」を参考)
4 実際の使用例(1/2) スマートフォンの慣性センサーログから人間の運動を分類する • データソース https://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones (データセットの説明) • 慣性センサーログから得られたデータに信号処理などを施して用意された561 の特徴量から、6つの行動パターンを分類する。(n=5149) 特徴量の大まかな分類 • 身体加速度計(xyz軸ごと) • 重力加速度計(xyz軸ごと) • 加加速度(加速度の時間微分値)データ(3軸) • 角運動量データ(3軸) 上記のそれぞれに対する周波数データ× 各種統計量(平均、絶対値、信号エントロピー等) 目的変数 LAYING STANDING SITTING WALKING WALKING_UPSTAIRS WALKING_DOWNSTAIRS precision 1 0.96 0.96 0.99 0.99 1 recall 1 0.96 0.96 1 0.99 0.99
4 実際の使用例(1/2) スマートフォンの慣性センサーログから人間の運動を分類する • データソース https://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones (データセットの説明) • 慣性センサーログから得られたデータに信号処理などを施して用意された561 の特徴量から、6つの行動パターンを分類する。(n=5149) 目的変数 LAYING STANDING SITTING WALKING WALKING_UPSTAIRS WALKING_DOWNSTAIRS precision 1 0.96 0.96 0.99 0.99 1 recall 1 0.96 0.96 1 0.99 0.99
4 実際の使用例(2/2) (データセットの説明) • 慣性センサーログから得られたデータに信号処理などを施して用意された561 の特徴量から、6つの行動パターンを分類する。(n=5149)
5 考察 「STANDING」と「SITTING」が重なって描画されている。 実際にSVCで分類モデルを作成し評価したところ、上 記の2つが特に検出できていなかった。 LAYING STANDING SITTING WALKING WALKING_UPSTAIRS WALKING_DOWNSTAIRS accuracy macro avg weighted avg precision 1 0.96 0.96 0.99 0.99 1 0.98 0.98 recall f1-score support 1 1 1016 0.96 0.96 895 0.96 0.96 926 1 0.99 853 0.99 0.99 682 0.99 0.99 777 0.98 5149 0.98 0.98 5149 0.98 0.98 5149
まとめ と これから • t-SNEは高次元の特徴量データを2,3次元で描画するための次元削減アルゴリズム。 • これを用いることで、多くの特徴量で作成された学習モデルの出力結果の説明に説 得力を持たせることもできる。 • 2018年以降には、t-SNEの、「次元の呪い」や「描画にしか使えない」という欠点を克 服し、より可視化力を向上させた「UMAP(1)」及び「DensMAP(2)」という手法も開発さ れている。 • 今回、高次元の特徴量の可視化という視点を得たので、次は上記の手法について研 究したい。 1. Leland McInnes, John Healy, James Melville, "UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction", https://arxiv.org/abs/1802.03426, 2018. 2. Narayan, A., Berger, B. & Cho, H. "Assessing single-cell transcriptomic variability through densitypreserving data visualization." Nature Biotechnology, https://www.nature.com/articles/s41587-02000801-7 , 2021
参考文献一覧(1/2) 1. Laurens van der Maaten , Geoffrey Hinton , "Visualizing Data using t-SNE", Journal of Machine Learning Research, https://lvdmaaten.github.io/publications/papers/JMLR_2008.pdf, 2008.11 2. @g-k氏, Qiita, "t-SNEを理解して可視化力を高める”, https://qiita.com/gk/items/120f1cf85ff2ceae4aba , 2021.10.08(最終アクセス2024.05.15) 3. @sakami氏, Qiita, "t-SNE解説", https://qiita.com/sakami/items/bb466161489771f7d2e9 , 2020.08, (最終アクセス2024.05.15) 4. @hkharmfulbear氏, Qiita, "次元圧縮を片っ端から試してみた(t-SNE, PCA, MDS, UMAP)", https://qiita.com/hkharmfulbear/items/a19dff8f3c637fa3bc12, 2022.03, (最終アクセス2024.05.15) 5. @kenmatsu4(まつけん)氏, Qiita, "Variational Autoencoder徹底解説", https://qiita.com/kenmatsu4/items/b029d697e9995d93aa24, 2017.06,(最終アクセス2024.05.15) 6. データ化学工学研究室(金子研究室)@明治大学 理工学部 応用化学科, "t-distributed Stochastic Neighbor Embedding (t-SNE) ~データの可視化に特化した手法~", https://datachemeng.com/tsne/ , (最終アクセス2024.05.15)
参考文献一覧(2/2) 7. 室田 一雄, 東京大学計数工学科及び数理情報学専攻 - 俯瞰講義 (数理の世界 第 7回) , "最適化の 数理—応用数理の視点", https://ocw.u-tokyo.ac.jp/lecture_files/gf_06/7/notes/ja/07murota.pdf, 2007.06 8. Leland McInnes, John Healy, James Melville, "UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction", https://arxiv.org/abs/1802.03426, 2018. 9. Narayan, A., Berger, B. & Cho, H. "Assessing single-cell transcriptomic variability through densitypreserving data visualization." Nature Biotechnology, https://www.nature.com/articles/s41587-02000801-7 , 2021 • データソース https://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones • 引用元 Davide Anguita, Alessandro Ghio, Luca Oneto, Xavier Parra and Jorge L. Reyes-Ortiz. "A Public Domain Dataset for Human Activity Recognition Using Smartphones". 21th European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning, ESANN 2013. Bruges, Belgium 2426 April 2013.