[DL輪読会]Imputing Missing Events in Continuous-Time Event Streams (ICML 2019)

>100 Views

August 09, 19

スライド概要

2019/08/09
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

Imputing Missing Events in Continuous-Time Event Streams (ICML 2019) Akitoshi Kimura, Taniguchi Lab, Waseda University 1

2.

書誌情報 • 著者: – Hongyuan Mei • Department of Computer Science, Johns Hopkins University, USA – Guanghui Qin • Department of Physics, Peking University, China – Jason Eisner • Department of Computer Science, Johns Hopkins University, USA • 学会: – ICML 2019 Oral, Poster 2

3.

概要 • イベント系列を Neural Hawkes process でモデリング • イベント系列の観測されなかった部分の補完 – Medical records, Competitive games, User interface interactions • 提案分布に bidirectional continuous-time LSTM を適用 3

4.

背景: neural Hawkes process • Mei & Eisner(2017) • 互いに影響しあうイベントのモデル 4

5.

既存手法の問題点 • 事後分布 𝑝𝑝 𝑧𝑧 𝑥𝑥 を求めるのは難しい • 𝑥𝑥: neural Hawkes process から得られた(不完全な)な観測データ • 𝑧𝑧: (生成されたが)観測されなかったデータ – Hawkes process でも MCMC の必要 – Efficient transition kernel が必要 – Neural Hawkes process ではできない 5

6.

提案手法 • 一般的な sequential Monte Carlo で事後分布からサンプル • Particle filtering – 各時点では、過去の観測データ、非観測データを考慮に入れる • Particle smoothing – 各時点では、さらに将来の観測データも考慮に入れる 6

7.

Particle filtering • タクシーへの乗車下車の例 7

8.

Particle smoothing • 将来の観測データも活用 8

9.

モデル • 𝑝𝑝𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 : neural Hawkes process – Intensity function: – History: – Hidden state vector at time t: • 𝑝𝑝𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 : missing at random: 𝑧𝑧 に依存しない – missing not at random: 𝑧𝑧 に依存する 9

10.

Sequential Monte Carlo • 𝑝𝑝 𝑧𝑧 𝑥𝑥 からサンプリングは難しい • 重点サンプリングを用いる – 𝑞𝑞 𝑧𝑧 𝑥𝑥 : 提案分布からサンプリング – 𝑝𝑝 𝑧𝑧 𝑥𝑥 ⁄𝑞𝑞 𝑧𝑧 𝑥𝑥 に比例する重みをつける • Ensemble of weighted particles: – Importance weights: 10

11.

Particle filtering and particle smoothing • Particle filtering – Intensity function: – History: • All observed and unobserved events • Particle smoothing – Intensity function: – Future: • All observed events that happen after 𝑡𝑡 11

12.

提案分布の学習 • 𝑝𝑝 𝑧𝑧 𝑥𝑥 を近似するために KL divergence について最適化 • Linearly combined divergence – Gradient of inclusive KL divergence – Gradient of exclusive KL divergence 12

13.

損失関数 • Minimum Bayes Risk decoding, consensus decoding – Optimal transport distance: – The set of all alignments between 𝑧𝑧 and 𝑧𝑧 ∗ : – The total cost given the alignment 𝑎𝑎: • decomposed as 13

14.

実験 • Missing data mechanisms • Datasets – Synthetic datasets – Elevator system dataset – New York city taxi dataset 14

15.

手順 • Training data から 𝑝𝑝𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 を学習( 𝑝𝑝𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 は既知とする) • 𝑝𝑝 𝑧𝑧 𝑥𝑥 を近似するように 𝑞𝑞 𝑧𝑧 𝑥𝑥 を最適化 • 𝑞𝑞 𝑧𝑧 𝑥𝑥 から weighted particle をサンプリング • 𝑧𝑧:̂ consensus sequence を得る • Optimal transport distance L 𝑧𝑧,̂ 𝑧𝑧 ∗ を評価して比較 – Particle filtering – Particle smoothing 15

16.

Data fitting results • Scatterplots of neural Hawkes particle smoothing (yaxis) vs. particle filtering (x-axis) 16

17.

Decoding results • Optimal transport distance of particle smoothing (red triangle) vs. particle filtering (blue circle) 17

18.

結論 • bidirectional recurrent neural network によるイベント系列 の予測は初 • イベント系列どうしを評価する optimal transport distance を提案 • Consensus sequence を得る方法を与えた • 提案手法は人工データでも実データでも非観測系列の推測に おいて効果的であった 18

19.

参考文献 • Mei, H. and Eisner, J. The neural Hawkes process: A neurally self-modulating multivariate point process. In Advances in Neural Information Processing Systems (NIPS), 2017. 19