【DL輪読会】時系列予測 Transfomers の精度向上手法

6.3K Views

January 13, 23

#@deep learning jp #Deep Learning #Time Series Forecasting #Transformers #Non-stationary Transformers #WaveBound

スライド概要

2023/1/13
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 64.1K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 45.3K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 44.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 43.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] 時系列予測 Transfomers の精度向上手法 Tsuyoshi Ishizone(石曽根毅), Meiji University Nakamura Lab. http://deeplearning.jp/ 1

http://deeplearning.jp/

本日の輪読内容 • Non-stationary Transformers: Exploring the Stationarity in Time Series Forecasting – NeurIPS’22 採択（Rating: 7, 7, 4, 4） – 著者：Yong Liu, Haixu Wu, Jianmin Wang, Mingsheng Long（清華大学） – 概要：時系列予測 Transformers の Attention を非定常性を考慮した De-stationary Attention に置き換えることでベンチマークデータセットに対して精度向上を確認 – 選書理由：時系列予測で難しい非定常性を Attention ブロックで入れており， Encoder-Decoder 構造の Transformers 全般に適用できる汎用性に興味を抱いたため • WaveBound: Dynamic Error Bounds for Stable Time Series Forecasting – NeurIPS’22 採択（Rating: 7, 7, 6, 5） – 著者：Youngin Cho, Daejin Kim, Dongmin Kim, Mohammad Azam Khan, Jaegul Choo（KAIST AI） – 概要：各時点・サンプル別に過学習を動的に抑制することで時系列予測手法の精度向上を確認 – 選書理由：シンプルな手法だが流行りの時系列予測手法では軒並み精度が向上しており，汎用性の高さに興味を抱いたため 2

時系列予測 • 問題設定損失ベース時系列予測手法 𝑖 – 時系列データ {{𝑥𝑡 }𝑇𝑡=1 }𝑁 𝑖=1 が given（𝑖: sample index） LSTNet [Lai+, SIGIR’18], DeepAR [Salinas+, Int. J. Forecast., 20] N-BEATS [Oreshkin+, ICLR’20], N-HiTS [Challu+, arXiv, 22] – 過去の系列から将来の系列を予測 Transformer 系列 • 本日扱う手法の立ち位置（右図） Non-Stationary Transformers (1本目) WaveBound (2本目) Transformer [Vaswani+, NIPS’17], LogTrans [Li+, NeurIPS’21], Informer [Zhou+, AAAI’21], Reformer [Litaev+, ICLR’20], Pyraformer [Liu+, ICLR’22], Autoformer [Wu+, NeurIPS’21], FEDformer [Zhou+, ICML’22], ETSformer [Woo+, arXiv, 22] 5

Non-stationary Transformers: Exploring the Stationarity in Time Series Forecasting 7

本論文の貢献 • 近年の時系列予測手法の課題である over-stationarization（過定常化）問題を解決！ – “定常” な時系列 • (強)定常：任意の同時分布 𝑝(𝑥𝑡−𝑤 , ⋯ , 𝑥𝑡 ) が時間に依存しない • 弱定常：平均ベクトル 𝑬 𝒙𝒕 と分散共分散行列 𝑽[𝒙𝒕 ] が時間に依存しない – (今回はわかりやすさのため弱定常で説明するが，厳密には強定常のことを定常という) – ほとんどの時系列は非定常 • 時間区間に依存して分布シフトが起きているイメージ • 非定常な時系列は扱いづらいので，前処理で定常化を行うことが多い • 弱定常の場合，正規化をイメージすれば良い – 過定常化（over-stationarization） • 定常化した時系列に基づく予測モデルでは，非定常性による予測の差異を捉えきれないこと 8

提案枠組み • Transformer の Attention を非定常性を考慮した De-stationary Attention に置き換える 9

Normalization / De-normalization • Normalization – 変数別に sequence length 方向に正規化 𝑖: sample size, 𝑆: sequence length • De-normalization – 予測を保存しておいた統計量から非正規化 10

De-stationary Attention (あるべき) 非定常な attention： (標準偏差が変数に依らないと仮定した正規化の式) (Query の線形性) 定常な key 𝐾′, query 𝑄′ との関係式： Scaling scalar Shifting vector 11

De-stationary Attention 非定常な key 𝐾, query 𝑄 と定常な key 𝐾′, query 𝑄′ との関係式： Scaling scalar Shifting vector Scaling scalar と Shifting vector を非定常な原系列 𝑥 から計算： 12

10.

提案枠組み（再掲） • Transformer の Attention を非定常性を考慮した De-stationary Attention に置き換える 13

11.

実験内容 • データセット（いずれも時系列予測のベンチマークデータセット） • ベースライン手法 – 深層時系列予測手法：Autoformer, Pyraformer, Informer, LogTrans, Reformer, LSTNet – 単変量時系列予測手法：N-HiTS, N-BEATS, ARIMA • 評価指標 – MSE（平均二乗誤差），MAE（平均絶対誤差） 14

12.

主結果 • 提案枠組みを時系列予測 Transformers 導入すると，いずれの手法でも予測誤差を削減 15

13.

元データと予測の相対的定常性 • 時系列の定常度を ADF 検定統計量で評価（smaller ADF → higher 定常度） • 原系列と予測系列の ADF 検定統計量の比率で相対的な定常度を評価（97~103% が好ましい） • 通常の正規化 (Series Stationarization) や発展的な正規化 (RevIN) と異なり，提案法 (De-stationary Attention) は原系列と同等の定常度を持つ予測が可能 → 定常度を保存した（過定常化を抑制した）予測モデルによって予測精度が向上したと考えられる 16

14.

WaveBound: Dynamic Error Bounds for Stable Time Series Forecasting 17

15.

本論文の概要 • 貢献：学習時の時系列パターンの過学習を抑制！ • 提案法：学習損失を下げる下界を時点ごとに動的に決め，損失を近づける – Cf.) flooding [Ishida+, ICML’20]: 学習損失を下げる下界を事前に決め，損失の時間平均を近づける – Cf.) flooding (modified): 学習損失を下げる下界を事前に決め，時間ごとに損失を近づける 18

16.

経験リスクの比較手法通常 flooding (original) 経験リスク N: サンプル数 M: 予測時点数 K: 次元数時間平均 (事前に決める) 損失の下界 flooding (modified) 時点別の損失 WaveBound (提案法) (動的に決める) 損失の下界 19

17.

提案法：WaveBound 損失の下界を計算するためのネットワーク予測モデルの学習損失がテスト損失より下に束縛できるよう ϵ ≪ 1 を導入予測モデル (Source network) の指数移動平均(EMA)でパラメータを決定 20

18.

主結果 • データセット – NS Transformers と同様のベンチマーク6つ • 多くの時系列予測手法で予測誤差の削減を確認 21

19.

ECL データセットでの予測誤差比較 • Flooding では予測誤差が振動している → Flooding では一様な損失下界であり時間依存性を反映していない．学習データへの過適合を抑えきれておらず，予測が不安定になりやすい • WaveBound では予測誤差の振動が抑えられている → WaveBound は学習データへの過適合を抑え，予測を安定させる効果 22

20.

ETTh1 データセットでの損失曲面比較 • Filter normalization [Li+, NIPS’18] で損失曲面を可視化 • WaveBound を使用した方がより flat な曲面を形成 → flat な損失曲面の方が汎化性能が高いことが一般に知られており [Park+, ICLR’22]， WaveBound によって汎化性能が引き上げられたと考えられる 23

21.

まとめ・感想 • 時系列予測 Transfomers の予測精度を向上させる試みを２つ紹介 – Non-stationary Transfomers：過定常化を抑制する注意機構を導入 – WaveBound：汎化誤差を抑えるための損失下界を適応的に決定 • Non-stationary Transformers – 平均・分散を非定常に調整した注意機構を提案しており，より高次の統計量にも議論は拡張できそう – Encoder-Decoder に入力する前の正規化（定常化）はマスト • 正規化時に input length S=96 を固定しており，非定常に焦点を当てている論文なので区間幅 S に関する議論を深めて欲しかった • WaveBound – Appendix で時系列生成モデルや時空間予測モデルに対する精度向上の事例もあり，今後の発展を期待 • Teacher-Student モデルの枠組みに近いため，蒸留分野からの発展がありそう 24

22.

まとめ・感想 • 汎用的な時系列基盤モデルの構築は難しい – 画像や言語では大規模事前学習済みモデルからの転移学習 / fine-tuning である程度性能が出る – 時系列では，非定常性（分布シフト）と過学習の容易さからまだ難しい • 時系列で汎化が難しいのも非定常性が一因 • 今回紹介した論文は非定常性と汎化に立ち向かっており，今後の発展が期待される – 表現空間に落とすとしたら区間ごとに1つの表現とすることになるが，区間の区切り方が非自明 • 周波数空間に落とし込めば異なる区間幅でも1つの表現にできるが，非定常性からどこまでの区間を周波数変換すべきかが非自明 • 他分野への波及 – 動画像は系列データであるが，画像 (computer vision) 側から大規模モデルが発展 • 時系列と動画像の multi-modal な表現によって，センサ時系列の非定常性を汲み取れる可能性 – 世界モデルの世界が動的に変わる場合（工学応用ではあまりなさそう，RL の非工学応用？），非定常性を取り入れた内部モデルが発展してくる可能性 25

23.

References (時系列予測 Transformers) • [Vaswani+, NIPS’17] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin. Attention is all you need. In NIPS, 2017. • [Li+, NeurIPS’19] S. Li, X. Jin, Y. Xuan, X. Zhou, W. Chen, Y. Wang, and X. Yan. Enhancing the locality and breaking the memory bottleneck of transformer on time series forecasting. In NeurIPS, 2019. • [Zhou+, AAAI’21] H. Zhou, S. Zhang, J. Peng, S. Zhang, J. Li, H. Xiong, and W. Zhang. Informer: Beyond efficient transformer for long sequence time-series forecasting. In AAAI, 2021. • [Kitaev+, ICLR’20] N. Kitaev, L. Kaiser, and A. Levskaya. Reformer: The efficient transformer. In ICLR, 2020. • [Liu+, ICLR’22] S. Liu, H. Yu, C. Liao, J. Li, W. Lin, A. XLiu, and S. Dustdar. Pyraformer: Low-complexity pyramidal attention for long-range time series modeling and forecasting. In ICLR, 2022. • [Wu+, NeurIPS’21] H. Wu, J. Xu, J. Wang, and M. Long. Autoformer: Decomposition transformers with AutoCorrelation for long-term series forecasting. In NeurIPS, 2021. • [Zhou+, ICML’22] T. Zhou, Z. Ma, Q. Wen, X. Wang, L. Sun, and R. Jin. FEDformer: Frequency enhanced decomposed transformer for long-term series forecasting. In ICML, 2022. • [Woo+, arXiv, 22] G. Woo, C. Liu, D. Sahoo, A. Kumar, and S. C. H. Hoi. Etsformer: Exponential smoothing transformers for time-series forecasting. arXiv preprint arXiv:1406.1078, 2022. 26

24.

References (Others) • [Lai+, SIGIR’18] G. Lai, W. Chang, Y. Yang, and H. Liu. Modeling long- and short-term temporal patterns with deep neural networks. In SIGIR, 2018. • [Salinas+, Int. J. Forecast., 20] D. Salinas, V. Flunkert, J. Gasthaus, and T. Januschowski. DeepAR: Probabilistic forecasting with autoregressive recurrent networks. Int. J. Forecast., Vol. 36, 3, pp.1181-1191, 2020. • [Oreshkin+, ICLR’20] B. N. Oreshkin, D. Carpov, N. Chapados, and Y. Bengio. N-BEATS: neural basis expansion analysis for interpretable time series forecasting. In ICLR, 2020. • [Challu+, arXiv, 22] C. Challu, K. G. Olivares, B. N. Oreshkin, F. Garza, M. Mergenthaler, and A. Dubrawski. N-hits: Neural hierarchical interpolation for time series forecasting. arXiv preprint arXiv:2201.12886, 2022. • [Ishida+, ICML’20] T. Ishida, I. Yamane, T. Sakai, G. Niu, and M. Sugiyama. Do We Need Zero Training Loss After Achieving Zero Training Error? In ICML, 2020. • [Li+, NIPS’18] H. Li, Z. Xu, G. Taylor, C. Studer, and T. Goldstein. Visualizing the Loss Landscape of Neural Nets. In NIPS, 2018. • [Park+, ICLR’22] N. Park and S. Kim. How do vision transformers work? In ICLR, 2022. • [Ogasawara+, IJCNN’10] E. Ogasawara, L. C. Martinez, D. de Oliveira, G. Zimbrão, G. L. Pappa, and M. Mattoso. Adaptive Normalization: A novel data normalization approach for non-stationary time series. In IJCNN, Barcelona, Spain, 2010, pp. 1-8, doi: 10.1109/IJCNN.2010.5596746. • [Passalis+, IEEE TNNLS’20] N. Passalis, A. Tefas, J. Kanniainen, M. Gabbouj, and A. Iosifidis. Deep Adaptive Input Normalization for Time Series Forecasting. In IEEE TNNLS, vol. 31, no. 9, pp. 3760-3765, Sept. 2020, doi: 10.1109/TNNLS.2019.2944933. • [Kim+, ICLR’22] T. Kim, J. Kim, Y. Tae, C. Park, J. Choi, and J. Choo. Reversible Instance Normalization for Accurate Time-Series Forecasting against Distribution Shift. In ICLR, 2022. 27

25.

ご清聴ありがとうございました！ 28

26.

Appendix 29

27.

時系列データの定常化 • Adaptive Normalization [Ogasawara+, IJCNN’10] – 移動平均 → 排反区間に分割 → 外れ値除去 → 区間別に正規化 • DAIN [Passalis+, IEEE TNNLS’20] – Adaptive Shift，Adaptive Scaling を NN で sample-wise で求める • RevIN [Kim+, ICLR’22] – 入力系列を Instance Normalization → 予測器で予測 → De-normalization した損失で誤差伝播 30

28.

RevIN [Kim+, ICLR’22] 31

29.

データセット • ETT (Electricity Transformer Temperature): 中国69地点・2年間 (2016~2018) の変圧器の油温や電力負荷 (ETTh1 & ETTh2: hourly, ETTm1 & ETTm2: every 15 minutes) • ECL (Electricity): 321顧客・2年間 (2012~2014) の電力使用量 (hourly) • Exchange: 8カ国・27年間 (1990~2016) の為替レート (daily) • Traffic:サンフランシスコ港862箇所・48ヶ月 (2015~2016) の道路占有率 (hourly) • Weather: 全米1600箇所・4年間 (2010~2013) の21気象指標 (every 10 minutes) • ILI: 米国・20年間 (2002~2021) のインフルエンザ様疾患患者 (weekly) 32

30.

NS Transformers の主結果 • Ours (vanilla Transformer w/ proposed.) が最良 – Vanilla Transformer に提案法を導入しただけでも，既存法を凌駕することの証左 33

31.

NS Transformers の他正規化手法との比較 • 既存法 (RevIN) とナイーブな標準化 (Series Stationarization) を凌駕 34

32.

NS Transformers の Ablation Study • 提案法 (Stat+DeAttn) が最良なケースが多い – Stat: 定常化・非定常化 – DeFF: 正規化時の平均・分散を Transformer のFeed-Forward NN に入力 – DeAttn：Attention を De-stationary Attention に置換 35

33.

NS Transformers の査読者との議論 • Attention 後の MLP に正規化時の平均・分散を入れるだけではダメなのか？ – 提案法は過定常化問題の知見に基づくものである • Scaling scalar τ, Shifting vector Δ は正規化時の平均・分散を直接使ってはダメなのか？ – データに依存した deep features であるため MLP を通す必要がある • 正規化したものを “定常化時系列” と述べるのは不適切では？ – 「定常度合いを高めること」を定常化 (stationarization) として述べる 36

34.

Filter-wise Normalization [Li+, NIPS’18] • 各層の各フィルタ別に正規化した２つのランダムベクトルを用いて， 3次元的に損失曲面を可視化する手法 37

35.

非定常性を扱う RevIN [Kim+, ICLR’22] との組み合わせ • RevIN 単体よりも誤差の減少を確認 38

36.

EMA Model 単体との比較 • EMA model 単体（Without Bound）より，target network として EMA model を用いる提案法（WaveBound (Indiv.)）の方が予測誤差減少 39

37.

WaveBound 査読者との議論 • α，εはどうやって選ぶのか？ – α：0.99, 0.999, 0.9999 から選択．実験では更新速度確保のため 0.99 を選択 – ε：0.01, 0.001 から選択． εに対する堅牢性を確認済み • 時系列予測モデル(TSF)で過適合が起きていることの証左は？ – 合成データセットに対して TSF は容易に過適合が生じることを確認 • 計算コスト・メモリコストは？ – 学習時間は 1.1~1.5 倍，学習時に必要なメモリは数%上昇 • 学習時に損失が高ければ EMA 損失も高くなり，bound にならないのでは？ – EMA モデルは原モデルのアンサンブルとして機能するため，査読者が心配する状況は滅多にない – εを導入することで irreducible error に近づけられる 40

38.

LogTrans [Li+, NeurIPS’19] • 長期依存性を捉えるため，遠くの情報は徐々に疎にして attention する 41

39.

Informer [Zhou+, AAAI’20] • 長期系列を予測できるようにするため，層を経るたびに MaxPool して情報を圧縮 42

40.

Reformer [Kitaev+, ICLR’20] • attention の計算を同じハッシュ値の要素をまとめることで簡略化 • ハッシュ値はランダムな回転行列をかけた時の所属領域で決定 43

41.

Pyraformer [Liu+, ICLR’22] • 徐々に時間解像度を引き上げて attention を行っていく 44

42.

Autoformer [Wu+, NeurIPS’21] • フーリエ変換(FFT)して attention を取ることで，周期的な類似性を捉えた予測が可能に 45

43.

FEDformer [Zhou+, ICML’22] • M 周波数モードを強調する FEB-fと M 周波数モードでの注意機構である FEA-f を導入 46

44.

ETSformer [Woo+, arXiv, 22] • 指数移動平均で attention weight を決める Exponential Smoothing Attention 機構と top-K 周波数の情報に縮約した Frequency Attention 機構を導入 47

45.

LSTNet [Lai+, SIGIR’18] • 深層モデル(CNN+LSTM)と自己回帰モデル(AR)を組み合わせた予測 48

46.

DeepAR [Salinas+, Int. J. Forecast., 20] • AR パラメータを RNN で構成して時系列予測 49

47.

N-BEATS [Oreshkin+, ICLR’20] • 各ブロックで予測 (forecast)と現時点の最良推定(backcast)を計算し，情報を統合 50

48.

N-HiTS [Challu+, arXiv, 22] • N-BEATS に multi-rate signal sampling を導入 • 異なるカーネルサイズで MaxPool することで所望の scale の情報を各ブロックで学習 51