656 Views
August 12, 24
スライド概要
2024年8月10日に実施した、KaiRA×スクラムサイン共催の「AAAI論文読みLT会」の発表資料
AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!
2024年8月10日 AAAI論文読みLT会 SwinRDM:SwinRNNと拡散モデルによる気象予報 京都大学理学部地球物理学教室 物理気候学研究室 B4 松田 拓巳 0
自己紹介 n KaiRAの4代目会長 n 京大理学部B4 深層学習による前線の自動検出手法の研究 n 株式会社AVILEN、株式会社DeepcraftにてAI開発 (宣伝) Deepcraftでは優秀なAIエンジニア募集中です!! n 趣味 まつだ たくみ 松田 拓巳 n あいみょん n アコギ 1
文献情報 論文 タイトル SwinRDM: Integrate SwinRNN with Diffusion Model towards High-Resolution and High-Quality Weather Forecasting DOI https://doi.org/10.1609/aaai.v37i1.25105 学会 AAAI2023 著者 Lei Chen*, Fei Du*, Yuan Hu, Zhibin Wang, Fan Wang (アリババグループ) Abstract (translated by DeepL) 近年、データ駆動型の中期天気予報が注目を集めている。しかし、高解像度での予測精度は満足できるものでは ない。そこで我々は、高分解能かつ高品質な気象予測を目指し、SwinRNNの改良版と拡散モデルを統合した データ駆動型モデルSwinRDMを開発した。SwinRDMは0.25度の分解能で予測を行い、500hPaジオポテン シャル(Z500)、850hPa気温(T850)、2m気温(T2M)、総降水量(TP)などの代表的な大気変数について、最先 端の現業数値気象予報モデルであるIFS(Integrated Forecast System)よりも優れた予測精度を最大5日のリー ドタイムで達成する。我々は、計算メモリと予測精度のトレードオフを考慮し、0.25度の高解像度予測を達成 するために2段階の戦略を活用することを提案する。まず1.40625度の解像度で将来の大気場のリカレント予測 を行い、次に拡散ベースの超解像モデルを活用して、高い空間解像度とより細かいスケールの大気の詳細を回復 する。SwinRDMは、データ駆動型モデルの性能と可能性を、運用アプリケーションに向けて大きく前進させる。 2
アジェンダ n どんなもの? n 先行研究と比べてどこがすごい? n 技術や手法のキモはどこ? n どうやって有効だと検証した? n 議論はある? 3
アジェンダ n どんなもの? n 先行研究と比べてどこがすごい? n 技術や手法のキモはどこ? n どうやって有効だと検証した? n 議論はある? 4
どんなもの? 5日先までの地球全体の大気状態を予測する気象予報モデルSwinRDMを提案 ・ジオポテンシャル高度(上空のみ) 特徴量 (71変数*) 入 力 出 力 ・東西風速 ・南北風速 ・気温 30時間前〜現在の大気状態 ・相対湿度 ・総降水量(地上のみ) ・海 or 陸 ・地形(標高?) 水平解像度 緯度経度 0.25 0.25 フレーム数 6フレーム(=30時間前〜現在まで6hごと) フレーム数 20フレーム(=6時間後〜5日後まで6hごと) 6時間後〜5日後の大気状態 *71変数=上空5変数 13層+地上4変数+2定数 5
アジェンダ n どんなもの? n 先行研究と比べてどこがすごい? n 技術や手法のキモはどこ? n どうやって有効だと検証した? n 議論はある? 6
先行研究と比べてどこがすごい? SwinRNNを単純化し、学習時のメモリ消費削減&パラメータ効率化 きめ細かい特徴抽出 ざっくりした特徴抽出 p 従来のSwinRNNでは、Encoderで解像度が異なる4つの階層を設けている p データの解像度の2乗に比例して学習時のメモリ消費量が増加する p 隠れ次元数が大きい場合、階層を1つにした場合と精度がほぼ同等になってしまう p 階層をつけるよりも、隠れ次元数増やす方が効率が良い! 画像引用:Hu, Yuan, et al. "SwinVRNN: A Data-Driven Ensemble Forecasting Model via Learned Distribution Perturbation." Journal of Advances in Modeling Earth Systems 15.2 (2023): e2022MS003211. 7
アジェンダ n どんなもの? n 先行研究と比べてどこがすごい? n 技術や手法のキモはどこ? n どうやって有効だと検証した? n 議論はある? 8
技術や手法のキモはどこ? 粗い解像度でSwinRNNで予測させたあとに、拡散モデルで高解像度化する p SwinRNN+のみだと、解像度を高くしすぎると精度が落ちてしまう問題 p 精度最大だったのは1.40625 1.40625 格子にしたとき p 1.40625 格子を0.25 格子に高解像度化する拡散モデルを導入して問題を解決 9
技術や手法のキモはどこ? 拡散モデルのノイズを変えてそれぞれ予測させれば、アンサンブル予報も可能! p 大気の運動はカオス的な振る舞いをするため、時間とともに誤差が拡大する p 誤差の拡大を事前に把握するために、アンサンブル予報がよく用いられる p 拡散モデルではGaussianノイズを取り除く過程を学習する p 初期Gaussianノイズを複数用意することでアンサンブルが可能 画像引用:Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." Advances in neural information processing systems 33 (2020): 6840-6851. 10
アジェンダ n どんなもの? n 先行研究と比べてどこがすごい? n 技術や手法のキモはどこ? n どうやって有効だと検証した? n 議論はある? 11
どうやって有効だと検証した? 現業の数値予報モデルや、従来の機械学習モデルを上回る精度 Bad Good p 上図ではRMSE(平均二乗平方根誤差)で比較 p IFS:ヨーロッパ中期予報センターの数値予報モデル p SwinRDM*:提案手法。アンサンブル予測したもの(20メンバー) p FourCastNet:Adaptive Fourier Neural Operatorによる予報モデル 12
どうやって有効だと検証した? 拡散モデルは、双線形補間・SwinIRよりも有効。アンサンブルするとさらに精度向上 Bad Good p 上図ではFID(Frechet Inception Distance)で比較 p 画像を多変量正規分布に埋め込み、その平均と分散を使って算出される指標 FID = 𝜇! − 𝜇" # + Tr Σ! + Σ" − 2 Σ! Σ" 13
どうやって有効だと検証した? 提案手法(SwinRDM)では、より細かい部分まで表現できている 地 上 気 温 降 水 量 14
どうやって有効だと検証した? 「猛烈な」勢力に発達した2018年台風22号も高精度に予測できている ◀台風の目が明瞭!! 画像引用:https://ja.m.wikipedia.org/wiki/2018%E5%B9%B4%E3%81%AE%E5%8F%B0%E9%A2%A8#/media/%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB%3AMangkhut̲2018-09-14̲1415Z.jpg 15
アジェンダ n どんなもの? n 先行研究と比べてどこがすごい? n 技術や手法のキモはどこ? n どうやって有効だと検証した? n 議論はある? 16
議論はある? 長期予報には長けているが、短期予報はちょっと弱い SwinRDMが◎ IFSが◎ p 短期予報では、SwinRNNのEncoder部分の性能が重要と考えられる p 過去の大気状態の情報をよりよく抽出する方法が必要 17
18
19
Appendix 多階層かつ隠れ次元を大きくすると、モデルサイズの割に精度が伸びなくなる 精度(RMSE) p 隠れ次元が小さい場合(128)、多階層(Multi-Scale)にした方が精度が良い p 隠れ次元が大きい場合(256)、多階層でも単階層でも精度はほぼ同じ 20
Appendix Swin TransformerではWindowでグルーピングした中でのみSelf Attentionを計算 p 階層的な特徴抽出 p 計算量削減 p Self Attentionの範囲を画像全体でなく、Local Window内のパッチに限定 p Sliding Window でなく Shifted Window という手法を採用 21