3.4K Views
September 08, 23
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] Deep Latent State Space Models for Time-Series Generation Tsuyoshi Ishizone (石曽根毅), Meiji Univ., Nakamura Lab. http://deeplearning.jp/
書誌情報 • Deep Latent State Space Models for Time-Series Generation ✓ICML 2023 Poster ✓著者:Linqi Zhou, Michael Poli, Winnie Xu, Stefano Massaroli, Stefano Ermon - スタンフォード大,トロント大,MILA (Y. Bengio が立ち上げた研究機関) ✓概要:系列長期依存モデル S4 に inspire された系列生成モデル LS4 の提案 ✓選書理由:LR (long-range) タスクで Transfomer を凌駕するとして注目を集めた S4 の発展可 能性に対する興味 2
S4 (Structured State Space Sequence) Model • 学習・推論の時間を大幅に抑えつつ,系列の超長期依存性を捉えた手法 ✓Path-X では唯一成功(他のモデルはランダム予測と変わらない結果) - 128 × 128 の画像入力を 214 ≃ 16,000 の atten した時系列とみなし, 画像中の2点が繋がっているか判別するタスク DL輪読会では,過去に野中さんが紹介 3 fl •
S4:SSM (State Space Model) の強み • • • 状態の連続時間表現が可能 長期依存性を遷移行列で表現可能 畳み込み演算による高速な離散表現を獲得可能 4
S4:カーネルの高速計算 • 離散 SSM: xt = Āxt−1 + B̄ut, • yt = C̄xt + D̄ut 畳み込み表現: yt = C̄Āk B̄u0 + C̄Āk−1B̄u1 + ⋯ + C̄B̄uk, y = K̄ * u + D̄u, i L−1 ( Ā, B̄, C̄) := ( C̄ Ā B̄) = ( C̄ B̄, C̄ Ā, B̄, ⋯, C̄ Ā , B̄) L i∈[L] 畳み込みカーネル K̄ を高速計算 O(D + L) するために多くの計算技術を使用(D: dim., L: length) ✓SSMGF を定義: ̂ (z; Ā, B̄, C̄) := ∞ ∑ i=0 C̄Āi B̄zi = C̄(I − Āz)−1B̄ ✓Black-box Cauchy kernel:Āが対角行列の時 SSMGF の計算 = Cauchy kernel の計算 −1 −1 −1 −1 −1 −1 Woodbury Identity: (A + UV*) = A − A U(I + V*A U) V*A ✓ jk ✓iFFT:z を1の冪根とすると K̂j = ∑ K̄k exp (2πi L ) となり,SSMGF から iFFT で K̄ 得られる k=0 L−1 𝒦 𝒦 • K̄ := 5
S4: HiPPO Matrix • S4 が長期依存性を捉えられるのは, HiPPO 行列を含む空間に遷移行列 A を制限して学習しているから • 入力信号 f(t) を,時変測度 μ に基づき Legendre 多項式近似:f(t) ≈ ∑ n cnPn(t) ✓測度に対応する行列 A, B によって,“記憶”の役割を担う係数 c の時間発展方程式が導出される 6
S4: Diagonal Plus Low-Rank • • 主要な HiPPO 行列は DPLR (diagonal plus low-rank) なる行列クラスに属する n×n DPLR 行列 A ∈ ℝ n×n とは,ある対角行列 Λ ∈ ℝ n ,ベクトル p, q ∈ ℝ を用いて A = Λ − pq* と表せる行列のこと • S4 では,遷移行列 A を DPLR 行列に束縛することで, 長期記憶の保持とカーネル計算の高速化を実現 7
LS4 (Lantent S4) • 紹介論文:S4 を潜在モデルに拡張した時系列生成モデル LS4 の提案 • 入力 x,出力 y,状態 h,潜在 z に対し,次の生成モデルを仮定 h′ = Ah + Bx + Ez, • y = Ch + Dx + Fz zt ht yt S4 と同様にカーネルを用いると y = CK x * x + CK z * z, • xt Kix = ĀiB̄, Kiz = ĀiĒ VAE の形式で潜在 z を推論し,z, x を生成 | q (z x ) 推論分布 φ t ≤t ✓ 生成モデル | | p (x x , z ), p (z z<t) 生成分布 θ t <t ≤t λ t ✓  ✓アーキテクチャは FNN, GELU, LN, Skip connection のブロックを複数回積んでいる 8
LS4: Properties • • Proposition 4.1:LS4 は S4 クラスを包含 Proposition 4.2(複雑性) ✓計算複雑性:O(H(L + N)log(L + N)) ✓空間複雑性:O(H(L + N)) ✓L: sequence length,N: hidden dim.,H: SSM heads (input dim. or output dim.) - *Path-X など超長期系列依存タスクでは H = 1(例えば,画像のグレースケール値) 9
LS4: Sti • • System Sti system:複数の時間スケールの現象が存在 実験内容 ✓対象:FLAME problem dx = x2 − xp dt p ∈ {3,4,⋯,10} として各 p で 1,000 系列作成 ✓図(a):生成トラジェクトリの平均±標準偏差 - Ours (LS4) は Real をよく再現した生成 ✓図(b):各時間ステップにおけるヒストグラム比較 - Ours (LS4) と Real の生成分布は各ステップ別に近い ff ff 10
LS4: メインの実験 • • Data:1-lag 自己相関が 0.38~0.98 とバラバラな4種類の典型的時系列データ Metrics ✓Marginal:real との経験密度の全変動距離(ヒストグラム間距離) ✓Class:real かどうかを判別する NN を訓練した後の cross-entropy loss ✓Prediction:synthetic で訓練し real で予測した時の MSE 11
LS4:内挿・外挿 • Data ✓Physionet:8,000 ICU 患者の初期48時間の41信号時系列 ✓USHCN:降水量,降雪量,積雪量,最高気温,最低気温など米1,218地点の気象時系列 • タスク ✓Interp.:部分時系列をマスクし,内挿性能を評価 ✓Extrap.:前半/後半の半分の時系列をマスクし,外挿性能を評価 12
LS4:ランタイム • 入力系列長変化に対する各手法の学習・推論時間の比較 • LS4 (ours) は計算複雑性が O((N + L)log(N + L)) であり,ランタイム最小 2 ✓他の手法は O(N L) の計算複雑性を持つため,N 2 に引っ張られやすい 13
まとめ・所感 • まとめ ✓S4 に潜在空間を導入した時系列生成モデル LS4 を提案 ✓典型的な時系列データに対し,Real を模した生成に成功 • 所感 ✓時系列はデータごとに性質が異なるので,複数のデータで生成性能が高いのは今後が期待できる ✓一般に時系列は非定常(時間に対する domain shift)であり, どのような非定常性なら許容できるかが気になる ✓時系列は基盤モデルの確立も難しく small data なことが多いため, データ数に対する性能評価は気になる - FRED-MD:107系列 x 728系列長,NN5:111系列 x 791系列長, Temp Rain:32072系列 x 725系列長,Solar:137系列 x 52560系列長, USHCN:1218系列 x 約2190系列長,Physionet:8000系列 x 48 系列長 14