Interpretable Sequence Learning for COVID-19 Forecasting

313 Views

July 06, 21

#COVID-19 #感染症数理モデル #時系列予測 #機械学習 #SEIRモデル

スライド概要

https://techblog.morphoinc.com/entry/2021/07/06/124107

モルフォ

@Morpho

スライド一覧

モルフォは“画像処理×AI技術”の研究開発型企業として、ソフトウェア事業をグローバルに展開しています。テックブログにて画像処理・AIに関する情報をお届けしています。・コーポレートサイト：https://www.morphoinc.com/ ・テックブログ：https://techblog.morphoinc.com/

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

HiPPO/S4解説

モルフォ 52.5K

JDLA主催CVPR2024技術報告会ーコンピュータビジョン技術の最前線ー

cvpr ai deep learning gaussian splatting 基盤モデル学会報告

モルフォ 44.5K

A Brief Survey of Schrödinger Bridge (Part II)

モルフォ 16.9K

JDLA主催CVPR2025 技術報告会ーコンピュータビジョン技術の最前線ー

cvpr ai deep learning gaussian splatting 学会報告

モルフォ 15.6K

Deep Unrolling ~Learned ISTA (LISTA)~

モルフォ 11.8K

紹介論文_S. H. Chan, X. Wang, and O. A.Elgendy, ”Plug and Play ADMM for Image RestorationFixed Point Convergence and Applications”

画像復元

モルフォ 5.5K

各ページのテキスト

概要 • → のホワイトペーパー • 疫学の数理モデルを拡張、その各種変数の時系列予測を通じ感染者数などを予測 – 著者は全員Google Cloudだが、US版はHarvard Global Health Institute、⽇本版は慶應医療政策・管理学教室宮⽥研監修 • NeurIPS 2020 • 純粋な機械学習モデルとして⾒るとかなり簡素画像: https://datastudio.google.com/reporting/8224d512-a76e-4d38-91c1-935ba119eb8f/page/ncZpB のスクリーンショット(2021/5/13 アクセス) Copyright © 2021 Morpho, Inc. All Rights Reserved. 1

https://datastudio.google.com/reporting/8224d512-a76e-4d38-91c1-935ba119eb8f/page/ncZpB

感染症の数理モデル • 感染症は病原体への曝露がなければ絶対に罹患しないのが特徴 ↔ 膠原病・⽣活習慣病のような内的要因の疾病 • いくつかの仮定をすることで数理モデルを⽤いた研究がしやすく、また需要もある • ここからスライド数枚の内容は主に数学セミナー2020/9の特集に依拠しています – ⽇本語の教科書としては稲葉「感染症の数理モデル」がある、COVID19禍を受けて対応する章を追加した増補版[5]が出ている Copyright © 2021 Morpho, Inc. All Rights Reserved. 4

https://www.nippyo.co.jp/topics/【電子書籍新刊】『新型コロナウイルスと闘うた/

感染症の数理モデル異なるアプローチがあり、⽬的によって使い分けが必要 • 機構的なモデル(mechanistic model) – 感染伝播のような現象⾃体をボトムアップに記述し、理解する⽬的 • e.g. コンパートメントモデル – 代表的なものが SIRモデル、SEIRモデル • ⼈⼝内でどのように感染が広がるのか、いつ重症者数がピークを迎えるかなど • 感染症の制御そのものに対する⽰唆を得ることができる • 外挿的なモデル(extrapolation model) – ざっくりといえば「正しいっぽい曲線」を当てはめるもの(e.g. 回帰直線) • というと⾔い⽅が悪いが、リアルタイム予測に⽤いられたりもする • 歴史的にも⼤規模な感染症流⾏があるたび、外挿的なモデルが突如提案されることが多かった(e.g. Langmuirによる流⾏曲線への正規分布のあてはめ) Copyright © 2021 Morpho, Inc. All Rights Reserved. 5

感染症の数理モデル: SIRモデル • コンパートメントモデル:⼈⼝をいくつかの”区画”に区切る。代表格がSIRモデル 𝑆 𝐼 𝑅 – Susceptible: 感受性⼈⼝ (未感染かつまだワクチン等で免疫を持たない) – Infected/infectious: 感染性⼈⼝ – Recovered/removed: 治癒⼈⼝ • 仮定 – Sが病原体に曝露されたら直ちにIに移⾏(潜伏期間を0と仮定) – 他者への感染はIのみが起こす – 感染期間は全員同じ (Iから⼀定期間でRに移⾏) – 治癒後は免疫がつき、再感染はしない(RからSやIには戻らない) Copyright © 2021 Morpho, Inc. All Rights Reserved. 6

[beta]

感染症の数理モデル: SIRモデル
S, I, R をそれぞれの⼈⼝とすると、以下の微分⽅程式で表される
•
•
•

!"
= −𝛽𝑆𝐼
!#
!$
= 𝛽𝑆𝐼 − 𝛾𝐼
!#
!%
= 𝛾𝐼
!#

𝑆

𝛽

𝛾

𝐼

𝑅

𝛽:感染率 単位時間内に1人の𝐼が1人の𝑆と接触を起こす確率
𝛾:治癒率 単位時間内に1人の𝐼が治癒して𝑅に移る確率
!"

• ⼈⼝の保存: 全部⾜すと時間変化がない (
• 基本再⽣産数 𝑅& :

!#

+

!$
!#

+

!%
!#

= 0) → 全⼈⼝ 𝑁 = 𝑆 + 𝐼 + 𝑅 は⼀定

– 全⼈⼝が感受性 𝑆 のコミュニティに1⼈の感染者が⼊ったとき、その⼈が起こす⼆次感染者の総数。 >1 のとき感染流⾏が発⽣する
•

第2式より、

!"

!#

= 𝛽𝑆𝐼 − 𝛾𝐼 = 𝛽𝑆 − 𝛾 𝐼 > 0 の時に感染が拡⼤
!

• 流⾏初期で 𝑆 ≃ 𝑁より、病原体が最初に⼊った際に感染拡⼤ ⇔ 𝛽𝑆 − 𝛾 𝐼 ≃ 𝛽𝑁 − 𝛾 𝐼 > 0 ⇔ 1 < " 𝑁 ≡ 𝑅# (*)

– マスク、ロックダウン、ワクチンなどの介⼊⾏為で値は変化し、それを実効再⽣産数 𝑅/ という (いろいろな異なる定義がある)

• 集団免疫閾値:
– どれだけの割合 𝑟 の⼈が免疫を持っていれば流⾏しないか︖
– 全⼈⼝のうち割合 𝑟 (0 < 𝑟 ≤ 1) がワクチンなどで免疫を持っているとすると、(*)の 𝑆 が (1 − 𝑟)𝑆 に置き換わる
→ 1=

0
3
(1 − 𝑟)𝑁 = (1 − 𝑟)𝑅2 、つまり 𝑟 = 1 −
以上なら感染拡⼤が起きない。
1
4)

Copyright © 2021 Morpho, Inc. All Rights Reserved.

7

e.g. 𝑅# = 2.5 → r =1-1/2.5 = 60%

感染症の数理モデル: SEIRモデルなど • SEIRモデル: 感染性を持たない潜伏期間を持つケースに拡張 • 感受性を持つ⼈ (Susceptible) が接触すると、潜伏期間中の状態(Exposed)に移⾏ – 𝑬の間は他⼈に感染させない – 𝑬は⼀定期間で発症して𝑰に移⾏ 𝑆 𝛽 𝐸 𝛼 𝐼 𝛾 𝑅 – SIRモデルも短期的・局地的な感染流⾏をよく再現するが、実際にはどの感染症も感染後すぐには他者への感染性をもたない。最近は最低でもSEIR型に拡張したものを⽤いることが必須[5 §2.4] • SIRモデルの他の拡張としては – ⼈⼝の異質性(年齢が近い⼈同⼠での接触が多い、など) – 感染からの経過時刻を考慮した拡張などがある。 Copyright © 2021 Morpho, Inc. All Rights Reserved. 8

10.

11.

全体の構成拡張した𝑆𝐸𝐼𝑅モデル • ベースはSEIRモデルからさらにコンパートメントを増やしたもの • 𝛽などのコンパート間の遷移率を表す変数が定数でなくなっている – これらの変数は “共変量” の関数 – この関数形を学習する遷移率の変数 (𝛽, 𝛾, … ) • 共変量の時間変動の予測も学習する共変量 (移動量、政策介⼊、国勢調査 … ) Copyright © 2021 Morpho, Inc. All Rights Reserved. 10 – この時間変動を通して𝛽などが時間変動する学習対象

12.

論⽂のモデル: compartment • 発⾒されている(documented)かどうかで例えば 𝐼 を 𝐼 (+) 、 𝐼 (-) に分けている [1] Fig.2より引⽤ – 診断により⾒つかると undocumented から documented に移⾏ (𝛾) • 再感染を考慮(𝜂)し、Rを𝑅と𝐷に分離 • ⼊院(Hospitalized)や、さらにその中のICUや⼈⼯呼吸器をつけた状態を考慮(𝐻, 𝐶, 𝑉) Copyright © 2021 Morpho, Inc. All Rights Reserved. 11

13.

14.

変数の時間依存 [1] Fig.2より引⽤ • 従来の疫学モデルでは遷移率を表す変数 𝛽 などが固定であることが多かった • 表現⼒を増すため、変数は ”共変量” covariates に依存して定まるとする。どの変数がどの共変量に依存するかは変数によって変える – 共変量は移動量、検査の状態、国勢調査、病院のスコアなど – 共変量が時間変化することを通して変数が時間変化する • 以下を学習する – 共変量から変数を定める関数 – 共変量の時系列予測器 Copyright © 2021 Morpho, Inc. All Rights Reserved. 13 [1] Table2より引⽤

15.

論⽂のモデル化 • 変数 𝑣! (𝛽, 𝛾, … など。𝑖は地域を表す)について、以下でモデル化 – ここで 𝑐 はグローバルなバイアス、𝑏* は地域ごとのバイアス、covは共変量 – 共変量は時間依存しないもの(国勢調査の結果など)と、時間依存するもの (移動量、政策介⼊、過去の陽性者数など)がある • 時間依存する共変量 𝑓[𝑡] について、以下の線形⾃⼰回帰モデルでモデル化 – ここで 𝜉 = 14 に固定(週の中での変動を学習するため) • 総パラメータ数百程度 Copyright © 2021 Morpho, Inc. All Rights Reserved. 14 [1] Fig.3より引⽤

16.

近隣地域の影響 [1] Fig.4より引⽤ • 州レベルでの予測モデルと郡レベルの予測モデルは別々に作成 • 群レベルのモデルでは隣接する群の共変数を集約したものも特徴量として⽤いる – 平均・中央値・標準偏差・最⼤・和 – ⽇本の県レベルのモデルでもこれはやっているらしい • 州レベルの予測では⼊れていない(ほぼ無視できるとの主張) Copyright © 2021 Morpho, Inc. All Rights Reserved. 15

17.

18.

ロス • ⽬的関数 – 重み付きL2ロス • ただし地域によってGTがない場合があるのでインジケータ関数 𝕀(⋅) をかけて、GTが存在するものだけ使⽤ • 𝑄 ＝𝐼 (!) + 𝑅(!) + 𝐻 + 𝐷 という形でのみGTがある場合もある • 正則化は時間についての重み、zはハイパーパラメータ – ありえない範囲のパラメータにペナルティを課したり、時系列の滑らかさを課したり • 合計: Copyright © 2021 Morpho, Inc. All Rights Reserved. 17

19.

⼿法 • Partial teacher forcing: 普通の学習: – RNNの学習の安定化テクニックとして teacher forcing というのがある • 学習時、RNNの出⼒を使うのではなく、GTを⼊れてしまう • しかし学習時と評価時で動作が異なってしまう問題がある – Partial teacher forcing を提案 • 前ステップの結果とGTを係数𝜆で内分したものを渡す • 学習中は 𝜆＝0.5 • finetune時に 𝜆＝1 としてGTを使わなくする Copyright © 2021 Morpho, Inc. All Rights Reserved. 18 “Did” “you” “know” RNN RNN RNN … <Start> Teacher forcing: “Did” “you” “know” RNN RNN RNN <Start> “Did” “you” Partial teacher forcing: これらを補間 …

20.

⼿法 • 最適化: – 予測すべき⽇数が 𝜏⽇分として、与えられた学習データの最後の𝜏個を validation、残りをtrainとする – ハイパーパラメータ(含初期値)を⼀つ取り、trainで学習 – ベイズハイパラ探索で⼀番いいパラメータをとり、最後にvalidationデータも使ってfinetune Copyright © 2021 Morpho, Inc. All Rights Reserved. 19

21.

22.

23.

24.

信頼区間の学習 • 先のページではL2ロスだったが、これはデータの平均を予測するのに対応 • 信頼区間を求めるため、L2ロスの代わりにquantile lossと呼ばれるものを使⽤ – L1ロスがmedianに対応するのと同様、quantileに対応するロス L1 loss quantile loss 0 ≤ 𝑎 ≤ 1 として左右の傾きが 𝑎 − 1, 𝑎 とすると、𝑎th quantile を求めることに相当 (a=0.5でL1ロスに帰着) Copyright © 2021 Morpho, Inc. All Rights Reserved. 23 証明は https://en.wikipedia.org/wiki/Quantile_regression#Quantiles など参照

https://en.wikipedia.org/wiki/Quantile_regression#Quantiles

25.

26.

学習結果の解釈・検証 • 各変数への共変量の寄与 – 感染率βについて (→図) • 移動量は正の寄与 • 介⼊政策は負の寄与だが数⽇のラグ • ⼈⼝中での割合が⼩さい集団にも正しい予測をしているか [1] Fig. 8 より引⽤ – ⼈種によるバイアス →図⼈種構成⽐で郡をグループ分けし、予測の正しさがそれに依存しないこと (この点は他にもいろいろ⾒ていた) – 年齢・性別などとの相関なども⾒ていた（なぜか現在の知⾒とは逆に年齢と負の相関が出ていたりも） Copyright © 2021 Morpho, Inc. All Rights Reserved. [1] Fig. 16 より引⽤ 25

27.

Potential Limitations • GTの品質 – 場所によっても品質が違ったりする • ⾼速なトレンド変化に弱い – 報告のされかたの変化だったり、モデルに⼊れていない共変量の変化だったり • 全地域で同⼀のweight – 数が多いところの⽅が重要視される • ロスが対称 – 何を重視するかでロスの設計を変えた⽅がよい • ⼈⼝のグループごとに性能が違いうる – 報告数が多いグループほど重視される • オーバーフィット – データが少ないうちは情報不⾜でoverﬁtする • 信頼区間 – ベイズ的な⼿法ではない Copyright © 2021 Morpho, Inc. All Rights Reserved. 26

28.

Other things we have tried • encoder に dropout → 特に意味がなかった • 共変数にlearnableな⾮線形処理 → overﬁt • Asymmetric loss → ハイパラを増やすほどの利益がなかった • ロスの正規化 (⼈⼝などで) → 悪化 • RNN (特にLSTM) → 最適化が難しくなり、また汎化しなかった • 2次の最適化 (直接最適化できるのでLBFGSを実装) → 汎化性能が落ちた – SGDだとフラットな解にいって汎化しやすいみたいな話と関係ある︖︖ Copyright © 2021 Morpho, Inc. All Rights Reserved. 27

29.

類似の研究 • [Zhaozhi Qian+20] – NeurIPS 2020、ガウス過程を使⽤して感染者数や、ロックダウンの効果を⾒積もる • [Erik Drysdale+20] – NeurIPS 2020、ガウス過程を利⽤して必要な病床数を⾒積もる • その他RNN/Transformerで学習してみました的なのもあったが省略 Copyright © 2021 Morpho, Inc. All Rights Reserved. 28

30.

その後: ⽇本感染者数の実際と、各時点での予測値 • • 日によっての予測値の変動が大きいあまり合っているとは言い難い… • 年末年始の日付などの情報は学習対象に含まれないので、こういう人流などが特異的なタイミング周辺ではモデルの作り的に予測が難しいだろうと思われる • Copyright © 2021 Morpho, Inc. All Rights Reserved. 29 その人流の予測値などがどうなっているのか気になるところだが公開されていないようだ https://twitter.com/hayano/status/1345853361237577729 より引用

https://twitter.com/hayano/status/1345853361237577729

31.

その後: US 州ごとの4週先予測値と実際の死亡者数の絶対差の平均ベースラインに負けている箇所は赤字、各列内の誤差の大きさで背景色を色分けベースラインに勝っている週の割合いろいろな⼿法のアンサンブル SEIRモデルのパラメータをグリッドサーチして死亡者数にfit ベースライン: 前週の死者数をそのまま予測値とする紹介⼿法 • • 特に初期はだいぶベースラインに負けている単純なSEIRモデルのほうがずっと正確な予測となっている擁護するとすれば、 • このSEIRモデルは死亡者数だけでfitし死亡者数だけで評価しているので有利 • 予測そのものというよりは、何が感染状況に効いているかなどの情報を得る⽅が本⼿法の主⽬的ということになるだろうか︖ Copyright © 2021 Morpho, Inc. All Rights Reserved. データ出典: https://github.com/youyanggu/covid19-forecast-hub-evaluation/blob/master/summary/summary_2_weeks_ahead_us.csv

32.

まとめ・所感 • 疫学のコンパートメントモデルを拡張して表現⼒を⾼めつつ、専⾨家が解釈可能な形で学習する⼿法を提案 • 機械学習のテクニックを使ってはいるが、学習というよりほぼfitting – 基本的に疫学のモデルに則っていてかなり実直には感じる – (interpretable sequence learning というタイトルでいいのか︖) – 仕組み的にも予測としての限界はあるのは明らかなので、その辺の限界を知った上で参考とすべき (監修の宮⽥先⽣がそういうことを⾔っている) • 申請した団体には「ワクチンを打った場合どうなるか」みたいなシミュレーションもさせてくれるらしい • 類似の研究よりは相当細かく検証されているが、予測は機械学習の問題としては難しすぎる感 Copyright © 2021 Morpho, Inc. All Rights Reserved. 31

33.

参考⽂献 • [1] S. O. Arik et al., “Interpretable Sequence Learning for COVID-19 Forecasting,” arXiv:2008.00646 [cs, stat], Aug. 2020. http://arxiv.org/abs/2008.00646 • [2] Z. Qian, A. M. Alaa, and M. van der Schaar, “When and How to Lift the Lockdown? Global COVID19 Scenario Analysis and Policy Assessment using Compartmental Gaussian Processes,” arXiv:2005.08837 [physics, stat], Jun. 2020. http://arxiv.org/abs/2005.08837 • [3] E. Drysdale, D. Singh, and A. Goldenberg, “Forecasting Emergency Department Capacity Constraints for COVID Isolation Beds,” arXiv:2011.06058 [cs], Nov. 2020. http://arxiv.org/abs/2011.06058 • [4] 数学セミナー2020年9⽉号. ⽇本評論社, 2020. • [5] 稲葉寿, 感染症の数理モデル, 増補版. 東京: 培⾵館, 2020. Copyright © 2021 Morpho, Inc. All Rights Reserved. 32