ひろしまQuest2022河川の水位予測

1.9K Views

February 17, 23

#時系列分析 #水位予測 #機械学習 #アンサンブル学習 #コンペティション

スライド概要

tktk

@2600123617

スライド一覧

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

KAGGLEのJigsawで銀メダルを獲得した解法等

tktk 5.9K

猫でも分かるUnreal Engineの学び方 - 超初心者向け編 - 2023 v1.0

ue4 ue5 ue-beginner

エピックゲームズジャパン 1.5M

Unreal Engine5 Lumenの仕組みと肝心なところ

ue5 ue-rendering ue-lumen

エピックゲームズジャパン 1.3M

Meta XR SDK(V66-74)でQuestアプリを開発

spatial anchor unity quest pro shaperecognizeractivatestate oculus integration transformfeaturestateprovider building blocks transformrecognizeractivestate ovrsemanticclassification jointdeltaprovider ovrscenemanager jointvelocityactivestate オクルージョン sequenceactivestate scene manager ambisonic depth api metaxraudiosource playerlocomotor meta xr sdk quest3 ovrplayercontroller マルチモーダル meta haptics studio direct touch ui meta xr haptics sdk ovrspatialanchor ovrtrackedkeyboard hapticclipplayer fingerfeaturestateprovider hapticclip ワイドモーションモード wmm mruk mr utility kit voice sdk jointrotationactivestate meta horizon os ui set asw application spacewarp ovr metrics tool unityscene manager colocation discovery コロケーション mx ink passthrough camera api hand tracking microgestures webcamtexturemanager passthroughcamerautils cameraviewermanager hand pose selector recorder

あうぜん 1M

猫でも分かる UE5.0, 5.1 におけるアニメーションの新機能について【CEDEC+KYUSHU 2022】

ue5 cedec+kyushu ue-animation ue-optimize ue-bp ue-physics ue-sequencer

エピックゲームズジャパン 0.9M

各ページのテキスト

ひろしまQuest2022 河川の水位予測 TeamShiny近藤 2023年2月15日(水)

アジェンダ 1. コンペ概要 6. データ成形、前処理 2. チーム概要 7. その他工夫点 3. EDA 8. まとめ 4. 予測手法 5. 他メンバーの取り組み 2

コンペ概要広島県内の観測データ（河川の水位、雨量、潮位）から、翌日の各河川（各観測局）の水位を予測するアルゴリズムを作成する。分析用データとして、以下が与えられる。内容：観測日時、ダムや観測地点の緯度経度、水位、雨量、潮位観測期間：6年間観測頻度：1時間ごと 3

チーム概要チームシャイニー、シャイニーラボの利用者、スタッフあわせて 5名でチームを組んだ。 ⚫ A（データ成形、前処理、モデリング） ⚫ B（データ成形、前処理） ⚫ C（データ成形、前処理） ⚫ D（前処理、モデリング） ⚫ 近藤（データ成形、前処理、モデリング）分析は各自行い共有する。週１回は集まり案を出し合う。 4

結果最終順位は Public Leaderbord6位、 Private Leaderbord7位。賞金を狙える位置にいたが、あと一歩届かない結果に。金メダルは持ち帰れた。少しシェイクダウンして、 LBを意識しすぎた感があった。 5

EDA  フォーラムのチュートリアルの可視化。  これとは別でヒートマップ、特徴量重要度も出して検討もした。あまり有用な知見は得られなかった。  地図を見て知見を得てはならないというルールがあり、周辺観測所や上流下流を判定するのに緯度経度を使う必要がある。 6

観測所を地図上にプロット雨量観測所（青）は全体的に散らばっていて、水位観測所（赤）は河川周辺にまとまっている。雨量観測所は緯度経度からの距離でエリアが求められ、水位観測所は近い場所を同傾向として使えそうか。 7

6年間の水位全期間、6年間の水位より例年、夏に水位が高い期間があるが、 2年目に欠損が多くあり、 5年目夏に豪雨があり水位が例年以上に上昇している期間がある。 8

1年目の水位夏にまとまった雨で水位が変動する以外は変動は少ない。近くにダムなどがなければ同じような水位の変動傾向が見て取れる。 9

10.

予測手法おおまかに解法は、水位観測所ごとに1時間ずつ水位を予測する手法と、水位の変動が大きい観測所は24時間まとめて予測する手法の、2種類のハイブリッド方式を採用した。水位の変動が大きい観測所は、全水位観測所瀬戸内海周辺の観測所が多く 166 周辺の港の潮位の値も多少は有効だった。観測所ごと 156 変動大 10 10

11.

基本戦略 ⚫ 欠損値、異常値、外れ値を適切な値に置き換え減らす AIの傾向を捉えやすくするため ⚫ 河川上流水位の追加を検討アイデアを煮詰められなかった点として一番に挙げられるのが、後述する河川上流水位を緯度で判定し追加する手法。川の流れる方向が東西南北バラバラのため精度の貢献は低かったため見送った。 11

12.

水位観測所ごとに1時間ずつ水位を予測  166ある水位観測所ごとに予測。各観測所ごとの傾向が捉えられる反面、一括で処理できないためどうしても学習時間、推論時間が多くかかる。  各水位観測所ごとに最大水位、最小水位、基準水位が異なるのでこの手法自体は有効だったと思われる。  推論時24行データにおいて、時間の変数以外に説明変数に大きな差異はなく、変動を捉えずらかったよう（後述）。 12

13.

水位の変動が大きい観測所は24時間まとめて予測  166ある水位観測所の一部の変動が大きい観測所を1行データにおいて多出力で予測。1時間ごとの増減は前述の手法よりこちらの手法の方が捉えやすかったよう。  観測所はラベルエンコーディングして区別している。  河川ごと、季節ごと、雨季や乾季ごとの学習なども試したがtestデータでは精度が上がらず不採用。 13

14.

その他予測手法 ⚫ モデル観測所ごとではmax_depth=3、水位変動大ではmax_depth=10が適合した。 MultiOutputRegressorのアーリーストッピングは学習時には行えていたが提出時に調整が必要となり未反映。CatboostはGPUを使用した。最終提出には入れなかったが、結果として入れない方が良かった。 kerasのMLPやkerasのGRUでまあまあの精度が出ていたが、推論時間の関係で不使用。 LightGBMはoptunaのハイパーパラメータチューニングが有効だった。 ⚫ 評価方法 Hold-outValidationをしtrainデータ9割で、validデータ1割で評価。評価はデータが少ないためほとんど参考にせずLBをあてにしていた。（Shakedownの原因かも）最終的にはアーリーストッピングしていない部分は6年分全部をtrainデータに使用。 ※上位解法では、交差検証を採用していたので追求すればよかったかもしれない。 14

15.

他メンバーの取り組み  Aは観測所のダミー変数化、多出力モデルに関心があり追求していた。また、速度、精度ともに有効な線形モデルに着目し、アンサンブルの幅を広げることに貢献した。  Bはデータ成形、全体の細かなところを中心に意見を出していた。  Cはデータ成形、前処理でアイデアを頻繁に提案し率先して動いた。また全体の取りまとめも行った。  Dは先行して取り組んでいた。水位、雨量の12時間平均などの改善点の提示や、近藤とは異なるアプローチがあり、特に提出zip作成時に大きな助けとなった。また交差検証にも取り組んでいた。 15

16.

データ成形、前処理(1) ⚫ 使用した特徴量・前日の12時から24時の水位・前日の0時から24時の水位観測所から近いTOP3の雨量観測所の平均雨量・広島県西中部の2箇所の雨量観測所（吉和、菅沢）の前日の0時から24時の平均雨量・時間・水位変動大の観測所は前日の0時から24時の潮位も追加 ⚫ 使用しなかった特徴量（推論時間の兼ね合いもある）・前日の0時から12時の水位、前々日の0時から24時の水位、雨量、潮位・前日、前々日の0時から24時の水位、雨量の12時間平均、最大、最小値・河川上流（緯度より選定）の前日の0時から24時の水位・月、日、季節・前日の水位、雨量の2時間移動平均・24時間雨量の0をカウント・ダムかどうかのフラグ・水位の平方根（流量に比例と論文に書かれていた） 16

17.

データ成形、前処理(2) ⚫ 目的変数対数変換を行ったり、「当日水位-前日23時の水位」も試したが効果が確認できないため見送った。 ⚫ 前処理 "大谷池"は300以下を+100。"白川"は200以上を-227.5。"七社"は9以上を-10。 "門田"は0を欠損値に。同観測所が複数行ある等の不整合なデータの調整。水位、雨量、潮位を1時間ずつシフトさせ、データ数を24倍に増やした。一部モデルでは豪雨期間を省いた。 ⚫ 欠損値補完水位、雨量、潮位に関して、limitで制限したinterpolateで線形補完。残った欠損値は全平均を取り補完。年月ごとの平均、多変量補完、多重代入法なども試したが、効果が確認できず不採用。 17 ※上位解法では、近い観測所の値で補完したり、前日の予測値を当日の欠損値補完として使用していた。

18.

その他工夫点 ⚫ 学習時の工夫観測所ごとに加えて河川ごと、季節ごと、雨季や乾季ごとの学習なども試したがtestデータでは精度が上がらず不採用。 ⚫ 推論時の工夫推論時間がギリギリだったためonnxを介して軽量化、速度向上を図った。それでも遅いので重要度が高くなさそうな特徴量を省いた。精度は悪くなかったため、1時間ごとに予測して予測値をtestデータに入れて24回推論させる方式も試したが、推論時間がかかるので見送った。 18

19.

アンサンブルによるスコアの向上 ⚫ 観測所ごと ⚫ 予測値の加重平均をとって最終的な予測値として提出。 ⚫ LightGBM、HistGradientBoosting、Ridge、MLP（学習前に正規化）を使用。 ⚫ 加重平均の割合は0.25:0.25:0.25:0.25。 ⚫ 水位変動大の観測所 ⚫ 推論時間の関係でHistGradientBoostingのみを使用。 19

20.

プログラミングコードについて整ったコードとはとても言い難いのでお見苦しいところがあるかもしれません。以下リンクへお進みください。 ⚫ チュートリアル https://drive.google.com/file/d/1gGeb7cjLc3EqZBX9q1sxmIBDhA8oOaw/view?usp=share_link ⚫ 最終提出の学習用コード、提出zip https://drive.google.com/drive/folders/1J8id9i9OJlVO098YdZFCLuVPo0Dzp29?usp=share_link 20

21.

まとめアイデアは終盤まで尽きることはなく時間が足りなかった。  推論時間を気にしたり提出zipを作るのに多数の時間を  費やした。  jc氏、mochizuki氏などのコンペ常連相手に対抗できる戦いができ、自信となった。  次回も同じような方式のSignateの時系列問題にチームで参加予定。経験を活かしていきたい。  終盤は個人でまとめてしまったので、チームでの取り組みには課題が残った。 21

22.

ご清聴ありがとうございました 22