偏りのある時系列データの分類について

2.2K Views

October 20, 24

#time series #deep learning #時系列データ #分類 #不均衡データ #機械学習 #オゾンレベル

スライド概要

Masato MIWADA

@masato_miwada

スライド一覧

土木技術者として社会インフラの維持管理業務に携わっておりました。今は第二のキャリアとしてAI・機械学習技術者としてメーカーにて仕事をしています。学生時代、「動画像による洪水流の表面流速計測技術」について研究開発しておりました。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

河川流計測における画像解析技術の実用化

stiv float-ptv 河川工学土木工学画像計測

Masato MIWADA 2.6K

t-SNE（t分布型確率的近傍埋め込み法）による高次元データの可視化について

t-sne 高次元データ

Masato MIWADA 2K

畳み込みニューラルネットワークによる画像分類について

cnn deep learning image classification

Masato MIWADA 1.4K

画像による脳腫瘍の検出

yolov8 sam object detection ai deep learning

Masato MIWADA 852

慣性センサーログの効果的な可視化と分類について

deep learning t-sne

Masato MIWADA 345

河川流計測における画像解析技術の実用化

stiv float-ptv 河川工学土木工学画像計測

Masato MIWADA 193

各ページのテキスト

偏りのある時系列データの分類について（Time series classification on imbalanced data）（課題名：オゾンレベルの分類）（ミワダマサト）三和田将人

お詫び前回の勉強会（3月7日）で、交差検証（Cross Validation）における評価値（正答率：ACC）を各Foldにおける正解率の平均として算出していました。しかし、これは厳密には誤りでした。正しくは各Foldにおける検証結果を全て足し合わせてから混合行列を始めとする統計量を確認するでした。（理由）分割数によって、同じサンプル数にならない状況があるから。参考サイト：データ化学工学研究室(金子研究室)＠明治大学理工学部応用化学科, "クロスバリデーションにおける注意点のまとめ https://datachemeng.com/cautions_in_cross_validation/#toc3 図の引用元：こちきか, "クロスバリデーション（交差検証）, https://gochikika.ntt.com/Learning/cv.html

お詫び分類する問題によっては、 • Positiveが重要である場合（例）クレジットカードの審査 → 適合率（Precision） • Negativeが重要である場合（例）病気の検査 → 再現率（Recall）と、どの結果に注目するかが異なるため。図の引用元：Anuganti Suresh, "What is a confusion matrix?", Medium, https://medium.com/analytics-vidhya/what-is-a-confusion-matrix-d1c0f8feda5 実装の参考：Rukshani Somarathna, "Generation of a concatenated Confusion Matrix in cross-validation", Medium, https://medium.com/analytics-vidhya/generation-of-a-concatenated-confusion-matrix-in-cross-validation-912485c4a972

成果物について • ある時系列で記録された気候の数値から、別時系列におけるオゾンレベルの高低を分類する学習器（モデル）を作成した。 • 正解率：Cross Validation（CV） = 80.2%、スコア：Leaders Board（LB） = 82.1％ • コンペにおける成績順位５位（111人中） • 習得の期間：７日（22時間） • 試作品（精度が出るまで）：３日（８時間） • 現在の成績まで：１日（４時間）

発表の流れについて 1. 時系列データについて 2. 今回の時系列データと問題点について 3. 作成スケジュール 4. 開発環境 5. 作製したモデルについて（モデルの種類、評価） 6. 苦労、実践したこと 7. 今回の振返りと今後について

１．時系列データ（Time Series）について • ある対象について、時間軸に沿って記録された連続的なデータ • 実例として、 ➢ 株価や年間の売上 ➢ ヘルスケアデータ ➢ 気温、気圧などが挙げられる。 • 時系列データの利用先は ➢ 予測（Forecasting） ➢ 分類（Classification）の２つである図-1 時系列データの例※ 北川源四郎、「4-4 時系列データ解析」、東京大学数理・情報教育研究センター、2020、 http://www.mi.u-tokyo.ac.jp/consortium2/pdf/4-4_literacy_level_note.pdfから引用

http://www.mi.u-tokyo.ac.jp/consortium2/pdf/4-4_literacy_level_note.pdf

２．今回の時系列データと問題点について（１） • 出典 ➢ 引用 Dua, D. and Graff, C. (2019). UCI Machine Learning Repository, [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science. ➢ データソース：https://archive.ics.uci.edu/ml/datasets/Ozone+Level+Detection • 内容 ➢ 73個の特徴量がある時系列データ（説明変数72個、目的変数１個） ➢ 1267（行）×73（列）日付データ型 date 数 1 各時刻、最大及各時刻、最大及各種Hp面でのび平均風速び平均気温気候データ雷雨になる可能性の指数 float float float 26 float 26 14 嵐の強さ（指数） float 1 海面気圧の前日からの変化海面気圧 float 1 float 1 オゾンレベル降水量 bit float 1 1 1

https://archive.ics.uci.edu/ml/datasets/Ozone Level Detection

２．今回の時系列データと問題点について（２） • 問題点（１/２）欠損値がある。 ← 時系列データは連続であるのが前提なため、補間処理が必要図-２欠損値のあるデータ（上）、平均値で補間されたデータ（下）図-３データ全体における欠損値の割合（最大９％程度）

２．今回の時系列データと問題点について（-３） • 他の欠損値補間について図-4.2 LOCF（Last Observation Carried Forward）法図-4.1 元データ図-4.3 中央値代入

10.

２．今回の時系列データと問題点について（-４） • 他の欠損値補間について図-4.4 線形補間法図-4.1 元データ図-4.5 スプライン補間

11.

２．今回の時系列データと問題点について（-5） • 他の欠損値補間について図-4.6 移動平均補間図-4.1 元データ図-4.7 カルマン平滑化補間

12.

２．今回の時系列データと問題点について（３） • 問題点（２/２） ➢ 目的変数の分布に大きな偏りがある。 ← オーバーサンプリング（Over Sampling）を施す。必ず学習データに施すこと、（検証データに施さない‼）偏りの大きなデータで機械学習を実施することの問題 • 数の多い属性（Majority）を予測するモデルが作られる。 • さらに、Majorityを予測するだけで「見た目は」高い精度が得られてしまう。（汎化性能が低い）図-３目的変数における偏りオーバーサンプリングについて ⇔ アンダーサンプリング • 数の少ない属性（Minor）をMajorityと同様の数となるよう水増しする手法である。 • 今回は手始めに基本的な手法である、ランダムオーバーサンプリング（Random Over Sampling）を採用している。 • Random Over Samplingは、Minorからランダムにデータを選択し、コピーしてサンプル数を増やす手法。過学習を起こしやすいが、高速に動作する。

13.

４．開発環境ハードウェア • Google Colab（無課金、T4GPU）× ２（Linux） • Lenovo 「IdeaPad Flex 5 14ALC7 (2022年製)」（Windows11 HOME）演算装置：AMD Ryzen 7 5700U with Radeon Graphics 1.80 GHz ➢ Frequency （ Base:1.8GHz, Max 4.3GHz ） ➢ Cores : 8, Threads : 16, Cache : 4MB L2 / 8MB L3 ソフトウェア • Python 3.10 • Tensorflow 2.15 • Anaconda3 ➢ Python 3.11 ✓ matplot lib ✓ numpy ✓ Pandas ✓ Scikit-learn ✓ imbalanced-learn ✓ LightGBM ➢R 4.3.2 3.5 1.21 2.0 1.4 0.12 3.3

14.

５．作製したモデルについて（モデルの種類、評価） • 本課題に対し、深層学習（DNN：Deep Neural Network)、サポートベクターマシン（SVC：Support Vector Machine Classifier）及び勾配ブースティング法（Gradient Boosting Method）の３つでモデルを作成した。 • 評価指標として、検証データでの正解率（ACC：Accuracy）、層化K交差検証（K=5）での正解率の平均（Cross-Validation Accuracy）、コンペサイトの採点で出された正解率（Leader Board）及び順位を記載している。 DNN ACC CV LB 順位演算時間 SVC 0.846 0.802 0.818 ５位１２０ (Sec) GBM 0.900 0.880 0.786 12位 CNN 0.950 0.890 0.776 22位１ (Sec) １ (Sec) 0.990 0.985 0.709 4.5 (Hour)

15.

５．作製したモデルについて（モデルの種類、評価） DNN SVC GBM ＊縦軸：実際の値、横軸：予測値

16.

６．苦労、実践したこと • 時系列の予測（Forecasting）に関する情報は多いが、分類（Classification）に関する情報は少ない。 ← 類似案件（時系列分類）の記事を参考にする。 Kaggleの「Credit Card Fraud Detection」（クレジットカードの不正検知） ← "Time-Series Classification"で英語圏のサイトを探索する英語圏は優良な文献も多いが、情報量が多いので上図に取捨選択しなければならない。 • 欠損値の補間（実装ミスが起こりにくく適切な方法） ← Rとそのライブラリで、欠損値の分布や割合を可視化し、補間手法を検討した。 • 目的変数が大きく偏ったデータを分類するときに使える方法について ← Pythonのライブラリ"Imbalanced-learn"やTensorflowの"dataset"ライブラリで対応。

https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud/data

17.

７．今後の施策（改良点） • 欠損値の補間について → 今回、補間の手法に平均値代入を使った。この方法は基本的なものだが、応用統計学の分野からは、例えば多重代入法などの、より高精度な補間方法が考案及び実装されている。モデルが出来上がったら、こちらを導入して結果がどう変わっていくか検証していきたい。 • オーバーサンプリングの方法について → 今回のオーバーサンプリングはMinorに属するデータをコピーするという、一番単純な方法だった。この方法は前述のとおり過学習しやすい欠点がある。そして、検証データでは高い正解率であるモデルほど、反対にコンペでの正答率が低くなっていた。ここから考えられるのは、与データに対して過学習をしており汎化性能が低くなっているということである。なので、Minorからデータを合成するSMOTE（Synthetic Minority Over-sampling TEchnique）の導入から考えている。オーバーサンプリングの手法をランダムサンプリングからSMOTEに変えて分類（SVC）したが、結果はほぼ変わらず

18.

ご清聴ありがとうございました

19.

参考にした情報源公式情報 • R 公式ドキュメント（英）・・・ • Tensorflow公式リファレンス（日、英）・・・ • Scikit-learn公式ドキュメント（英）・・・ • Imbalanced-leaning 公式ドキュメント（英）・・・ https://www.r-project.org/ https://www.tensorflow.org/ https://scikit-learn.org/stable/user_guide.html https://imbalanced-learn.org/stable/index.html ブログなど • Qiita（日） • teratail（日） • Stack Overflow（日、英） • Kaggle（英） • Analytics Vidhya（英） • Medium（英） • GitHub（日、英）・・・・・・・・・・・・・・・・・・・・・ https://qiita.com/ https://teratail.com/ https://stackoverflow.com/ https://www.kaggle.com/ https://www.analyticsvidhya.com/blog/ https://medium.com/ https://github.com

偏りのある時系列データ の分類について

Masato MIWADA

関連スライド

河川流計測における画像解析技術の実用化

t-SNE（t分布型確率的近傍埋め込み法）による高次元データの可視化について

畳み込みニューラルネットワークによる画像分類について

画像による脳腫瘍の検出

慣性センサーログの効果的な可視化と分類について

河川流計測における画像解析技術の実用化

各ページのテキスト

偏りのある時系列データの分類について