Kaggleスコアアップセミナー～画像系コンペ入門[前編]（2023/08/02）

73.3K Views

August 03, 23

#kaggle #画像処理 #機械学習 #深層学習 #ディープラーニング #コンペ #初心者 #kaggleスコアアップシリーズ #Kaggle #画像系コンペ #スコア改善 #フィックスターズ

スライド概要

これまでの Kaggle スコアアップシリーズでは、過去に参加し、メダル獲得・Kaggle Competitions Master の称号獲得をしたコンペについて、課題の解決手法とスコアアップのための改善手法について紹介してきました。
本シリーズでは、今後 2回に渡り、Kaggle初心者が画像系コンペに参加して、課題を提出し、スコア改善を実施するまでの一連の手順を解説していきます。
今回の前編は、画像系コンペに参加するまでの情報収集から、ベースラインモデルの精度改善までが対象です。

現在 Kaggle Competitions Master の称号を獲得しているメンバーも、当初は Kaggle 未経験でのコンペ参加でした。
そのメンバー自身が、初心者だった頃に知りたかったと感じる情報を厳選しています。

これから画像系の Kaggle コンペに参加しようと考えている、企業の研究開発部門所属のエンジニア、大学研究室所属の学生の皆様にオススメの内容になっています。

＜過去資料＞
・画像系コンペ入門[前編]：https://news.fixstars.com/3535/
・画像系コンペ入門[後編]：https://news.fixstars.com/3796/

・フィックスターズのAI・深層学習向け技術支援：　https://www.fixstars.com/ja/services/ai

株式会社フィックスターズ

@fixstars

スライド一覧

フィックスターズは、コンピュータの性能を最大限に引き出すソフトウェア開発のスペシャリストです。車載、産業機器、金融、医療など、幅広い分野での開発経験があります。また、ディープラーニングや機械学習などの最先端技術にも力を入れています。並列化や最適化技術を駆使して、マルチコアCPU、GPU、FPGA、量子アニーリングマシンなど、さまざまなハードウェアでソフトウェアを高速化するサービスを提供しています。さらに、長年の経験から培ったハードウェアの知識と最適化ノウハウを活かし、高精度で高性能なアルゴリズムの開発も行っています。　　　　　　・開催セミナー一覧：https://www.fixstars.com/ja/seminar　　・技術ブログ：https://proc-cpuinfo.fixstars.com/

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

いまさら聞けない ARM を使ったNEONの基礎と活用事例（2021/08/05）

arm neon

株式会社フィックスターズ 53.9K

いまさらきけないCUDA高速化（2024/12/19）

cuda gpu llm nvidia 高速化

株式会社フィックスターズ 53.6K

ROS2自律走行実現に向けて 2 ～次世代ロボット開発フレームワークROS2のビルドシステム徹底理解～（2022/11/30）

ros2 gpu ロボット自律走行 ros2シリーズ高速化シリーズ

株式会社フィックスターズ 49K

いまさら聞けない！CUDA高速化入門～プログラミングモデルとアーキテクチャの解説、高速化の実践～（2021/10/29）

cuda gpu cuda高速化高速化シリーズ

株式会社フィックスターズ 46.3K

CUDA高速化セミナー vol.2 ～CUDAアーキテクチャの進化～（2022/06/23）

gpu cuda cuda高速化高速化シリーズ cuda高速化シリーズ

株式会社フィックスターズ 40.2K

Kaggleスコアアップセミナー～画像系コンペ入門[後編]（2023/09/26）

kaggle 画像処理機械学習ディープラーニングコンペ初心者 kaggleスコアアップシリーズ

株式会社フィックスターズ 36.4K

各ページのテキスト

本セミナーの位置づけ ● 当社エンジニアが、銀メダルと Kaggle Competitions Master の称号を獲得 ● Kaggle スコアアップセミナー：スコアアップに向けたヒントをお届け ● 参加したコンペ個別の解説と改善手法の紹介画像系コンペ DFL- Bundesliga Data Shootout編数理最適化コンペ Santa 2022編 ● 本セミナー：Kaggle画像系コンペ入門者に向けた汎用的な情報を提供 ● こんな方にお勧め ● 研究や開発で、深層学習を扱っている方 ● 今後 Kaggle に挑戦し、スコアを上げていきたいと考えている方 Copyright© Fixstars Group 2

発表者紹介冨田明彦水野孝祐ソリューションカンパニー営業企画ソリューション第二事業部リードエンジニア 2008年に入社。金融、医療業界において、ソフトウェア高速化業務に携わる。その後、新規事業企画、半導体業界の事業を担当し、現職。 2016年に入社。ディープラーニングを用いた自動車向けの画像認識アルゴリズム開発に携わる。Kaggle Competitions Master Copyright© Fixstars Group 3

フィックスターズの強みコンピュータの性能を最大限に引き出す、ソフトウェア高速化のエキスパート集団ハードウェアの知見アルゴリズム実装力各産業・研究分野の知見目的の製品に最適なハードウェアを見抜き、その性能をフル活用するソフトウェアを開発します。ハードウェアの特徴と製品要求仕様に合わせて、アルゴリズムを改良して高速化を実現します。開発したい製品に使える技術を見抜き、実際に動作する実装までトータルにサポートします。 Copyright© Fixstars Group 6

サービス概要お客様専任のエンジニアが直接ヒアリングを行い、高速化を実現するために乗り越えるべき課題や問題を明確にしていきます。高速化のワークフローお客様オリジナルソースコードのご提供高速化したコードコンサルティング高速化サポート先行技術調査アルゴリズムの改良・開発レポートやコードへのQ&A 性能評価・ボトルネックの特定ハードウェアへの最適化実製品への組込み支援レポート作成 Copyright© Fixstars Group 7

サービス提供分野半導体産業機器金融自動車 ● NAND型フラッシュメモリ向けファームウェア開発 ● 次世代AIチップの開発環境基盤生命科学 ● Smart Factory実現への支援 ● マシンビジョンシステムの高速化 ● 自動運転の高性能化、実用化 ● ゲノム解析の高速化 ● 次世代パーソナルモビリティの研究開発 ● 医用画像処理の高速化 Copyright© Fixstars Group ● デリバティブシステムの高速化 ● HFT(アルゴリズムトレード)の高速化 ● AI画像診断システムの研究開発 8

10.

AI・深層学習向け技術支援 AIを使うためのハードウェア選定や、高速な計算を実現するソフトウェア開発技術で、お客様の製品開発を支援します。お客様の課題ご支援内容推論精度を維持したまま計算時間を AIモデル設計短縮したいデータの前処理・後処理組込みデバイス向けにAIモデルを軽量化したい推論精度の改善学習計算を高速化して研究開発を効率化したい分散処理による学習高速化精度と計算時間を両立するAIモデルをモデル圧縮・推論の高速化開発したい Copyright© Fixstars Group 10

11.

12.

Kaggle画像系コンペ入門 ● Kaggleの画像系コンペを対象とした入門セミナーを今後2回に渡って開催します ○ 前編: ○ 参加するコンペの選定からベースラインモデルの作成・精度改善まで、Kaggleの画像系コンペに参加する際の基本的な流れを説明 ○ ○ Kaggleプラットフォーム上で完結する話後編: ○ ベースラインモデルからさらにスコアを伸ばすための改善方法について説明 ○ クラウドまたはオンプレミス環境を想定した話 Copyright© Fixstars Group 12

13.

Kaggle画像系コンペ入門 ● Kaggleの画像系コンペを対象とした入門セミナーを今後2回に渡って開催します ○ 本日の内容前編: ○ 参加するコンペの選定からベースラインモデルの作成・精度改善まで、Kaggleの画像系コンペに参加する際の基本的な流れを説明 ○ ○ Kaggleプラットフォーム上で完結する話後編: ○ ベースラインモデルからさらにスコアを伸ばすための改善方法について説明 ○ クラウドまたはオンプレミス環境を想定した話 Copyright© Fixstars Group 13

14.

なぜ？いまさらKaggle画像系コンペ入門？ ● これまで書籍等では画像系コンペを扱ったものが少ないため、初心者がいざ参加しようとした時の敷居が高いのではないかと感じています ○ 本セミナーでは画像系コンペに対するハードルを下げられればと考えています ● また画像系コンペの以下のような特徴も敷居の高さにつながっていると思われます ○ ○ データサイズ: 数十GBは普通で、多いと数百GBにもなる計算資源: GPU環境は必須であり、試行錯誤するには無料の環境だけでは不足しがち ● 実際に画像系コンペの参加者は他のデータ形式のコンペよりも少ない傾向がありますので、逆に言うとこれから参加される方にとってメダル獲得のチャンスは多いと個人的には思っています Copyright© Fixstars Group 14

15.

本日説明する内容についての前置き ● 本セミナーでは、コンペの始まりから終わりまでに必要最低限の一通りの知識を説明することを主眼に置いています ● 時間も限られているため、特定のコンペに対するアプローチ、具体的なモデル作成方法および各項目の詳細は説明しません ○ このような内容は書籍等でも触れられていますので適宜参考文献をご参照ください ● 特に明示しない限りはCode Competitions形式のコンペを前提とした話をしていると思ってください Copyright© Fixstars Group 15

16.

17.

18.

19.

20.

21.

コンペのタイプ参考ページ https://www.kaggle.com/docs/competitions ● Featured ● ● あり ● 賞金なし ● ○ 商業目的の予測問題を扱うカテゴリで、これまでKaggle上で最も多く開催されている ○ 入賞者には必ずメダルかプライズが提供される Research ○ Featuredと比較すると実験的な問題を扱う ○ 入賞者には必ずメダルかプライズが提供されることが多いが、コンペによっては無い場合もある Getting Started メダルなしあり ○ 新規ユーザの利用を想定した練習用の簡単な問題を提供 Playground Getting ○ Getting Startedより一段上の難易度の問題を提供 Started ○ 賞金やメダルが出ることもあるが大半は出ない Play ground Analytics Research ○ 与えられたデータから知見を導き出すコンペ ○ 賞金が出るがメダルは出ない Analytics Featured Copyright© Fixstars Group 21

https://www.kaggle.com/docs/competitions

22.

https://www.kaggle.com/docs/competitions

23.

https://www.kaggle.com/docs/competitions

24.

https://www.kaggle.com/docs/competitions

25.

Code Competitionsの制約例 ● Code Competitionsでは参加者の公平を期すために、典型的には以下のような制約が与えられる ○ CPU Notebook <= 9 hours run-time ■ ○ GPU Notebook <= 9 hours run-time ■ ○ 提出用Notebook実行中はインターネットにアクセスできない Freely & publicly available external data is allowed, including pre-trained models ■ ○ 提出にGPUノートブックを使用する場合、9時間以内に実行完了しないといけない Internet access disabled ■ ○ 提出にCPUノートブックを使用する場合、9時間以内に実行完了しないといけない事前学習済みモデルを含む、自由かつ公開された一般利用可能な外部データを使用してもよい Submission file must be named submission.csv ■ 提出ファイル名はsubmission.csvというファイル名である必要がある ● 学習を実行する環境に制約は無いため完全に公平というわけではない Copyright© Fixstars Group 25

26.

データセットの種類参考ページ https://www.kaggle.com/datasets/kaggle/meta-kaggle ● 賞金の出るコンペの開催数推移 ○ ○ ○ 2015年~2016年はテーブルが主流 2017年~2021年は画像やテキストの割合が増加 2022年は再度テーブルの割合が増加音声画像テーブルテキスト ※ この表は Meta Kaggle データセットを基に弊社独自に集計した結果であることに注意。動画 Copyright© Fixstars Group 26

https://www.kaggle.com/code/its7171/dfl-benchmark-training

27.

画像系タスクの種類 ● https://www.kaggle.com/competitions 代表的なタスクとコンペ例 ○ ○ ○ ○ ● 参考ページ Image Classification: 画像からラベルを予測 ■ Cassava Leaf Disease Classification Object Detection: 画像から対象物体の位置を予測 ■ TensorFlow - Help Protect the Great Barrier Reef Semantic Segmentation: 画像から画素ごとのラベルを予測 ■ Vesuvius Challenge - Ink Detection Instance Segmentation: 画像から対象物体の位置とマスクを予測 ■ Sartorius - Cell Instance Segmentation その他 ○ ○ ○ ○ Video Classification: 動画からラベルを予測 ■ Deepfake Detection Challenge Action Spotting: 動画からアクションが発生したタイミングと種別を予測 ■ DFL - Bundesliga Data Shootout 画像生成AIが生成した画像からプロンプトを予測 ■ Stable Diffusion - Image to Prompts その他多数のためKaggleのCompetitionsページをご参照ください Copyright© Fixstars Group 27

28.

29.

30.

31.

コンペの基本情報確認 ● 参加するコンペを選定し、コンペの参加登録を済ませたら情報を集めます ● まずはOverviewとDataを一通り確認しましょう ○ 特にデータや精度評価指標の理解が重要となります ● 理解できない箇所や疑問点がある場合、以下のようにして解消するとよいでしょう ○ CodeやDiscussionで既に説明・議論されているか確認する ○ 自分で分析用のNotebookを作成して調査する ○ 上記手法で解決しなければDiscussionで質問する ■ 自分が引っかかる箇所は他の人も同じように引っかかる可能性が高いです Copyright© Fixstars Group 31

32.

精度評価指標の理解が改善につながった事例 ● TensorFlow - Help Protect the Great Barrier Reef ○ 与えられた時系列画像からオニヒトデを検出するコンペ ● 精度評価指標: F2 Score (下式の𝛽 = 2とした値) ○ ○ 通常のF ScoreはF1 Score (下式の𝛽 = 1とした値)でprecisionとrecallの調和平均を取った値一方のF2 ScoreはRecallが重視されるため、トレードオフとしてはRecall側に倒した方が高い値になる ● Recallに寄与する改善策を適用しスコアを改善 precision+recall=1.0と仮定した時のrecall vs Fβ Score 高解像度での学習時系列を用いた手法(Seq-NMS) 𝐹𝛽 = (1 + 𝛽 2 ) ∙ 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∙ 𝑟𝑒𝑐𝑎𝑙𝑙 𝛽 2 ∙ 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙 Fβ Score ○ ○ 0.6 F1 0.5 F2 0.4 0.3 0.2 0.1 参考ページ 0 F-score: https://en.wikipedia.org/wiki/F-score Seq-NMS for Video Object Detection: https://arxiv.org/abs/1602.08465 Copyright© Fixstars Group 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 recall 1 32

33.

Code ● Codeではコンペの参加者が共有したNotebookを確認したり、fork (Copy&Edit) して自分で動かしてみることが出来ます ● コンペが始まってしばらくすると、データ分析やベースラインモデルの Notebookが共有されることが多いのでとても参考になります ● またコンペが進むにつれてよりスコアの高いNotebookが共有されることもあるので、定期的に確認することをオススメします ○ コンペによっては、スコアの高い公開Notebookを一早く提出しておくだけでメダルを獲得できることもあります Copyright© Fixstars Group 33

34.

Discussion ● Discussionではコンペの参加者が様々なトピックについて議論をしたり、主催者に質問することが出来ます ● コンペに関する様々な情報が共有されるので定期的に確認しましょう ○ 関連する過去コンペ情報、有用な論文情報、データの不備、etc. ○ 知っていると知らないのではスコアが大きく変わる場合がある ● コンペ終了後には上位解法が共有されることが通例なので、コンペ終了後も目を通すととても勉強になります ● もしコンペに関して不明点や質問があって、Discussionに回答が見当たらない場合は自分で質問してみましょう Copyright© Fixstars Group 34

35.

過去の類似コンペの調査 ● 代表的なタスクのコンペの場合、過去に類似の問題を解くコンペが開催されていることが多いため、その時の上位解法を調査することで知見が得られることが多いです ○ ただし調査したコンペが古いものだった場合、当時と現在とで環境が大きく変わっている場合があるため、情報の取捨選択は必要なことに注意 ● 過去の類似コンペについてはDiscussionでまとめを投稿してくれる人が必ずいるので最初から自分で調べる必要は無いです ○ この手の投稿はUpvoteを貰いやすいのでDiscussionカテゴリのメダルを稼ぎたい方は、自分でまとめて投稿してみるのもアリ Copyright© Fixstars Group 35

36.

Leaderboard ● コンペ開催中はPublic test dataに対するbestスコアに応じたランキングが表示されます ● コンペ締切後はPrivate test dataに対するbestスコアに応じたランキングが追加されます ○ この順位でプライズの有無やメダルの付与が判定されます ● Publicのランキング表の上側の説明にPublicおよびPrivateの分割割合について記載があるので確認しておくとよいです ○ (例) This leaderboard is calculated with approximately 19% of the test data. The final results will be based on the other 81%, so the final standings may be different. Copyright© Fixstars Group 36

37.

Rules ● 余裕があればRulesも確認しておくとよいでしょう ○ コンペによって大きく変わることは少ないのですが、ソリューションのライセンスや外部データセットの使用可否が重要になることがあります ■ 過去にはMIT準拠のソリューションでないと認められないというコンペがあり、GPLのモデルを用いたソリューションが失格にされるケースがありました ● ■ https://www.kaggle.com/competitions/global-wheat-detection コンペによっては有用な外部データセットで学習することで精度に大きく寄与する場合もあります Copyright© Fixstars Group 37

https://www.kaggle.com/competitions/global-wheat-detection

38.

39.

40.

探索的データ分析 ● Exploratory data analysis (EDA)とも呼ばれる ● 与えられたデータに対して様々な観点で集計・可視化を実行し、解きたい問題にどのようにアプローチすべきか仮説を立てながら考える ○ コンペの初期に一度実施して終わりではなく、モデルを作成しながら気になることが出てきたら都度実行することになる ● なぜ必要なのか？ ○ タスクやデータに対する理解が深まる ○ データの分割方針につながる ○ 改善のアイデアが得られる ○ データに含まれるエラーやノイズに気づける Copyright© Fixstars Group 40

41.

分析用Notebookの作成参考ページ https://pandas.pydata.org/ https://matplotlib.org/ ● 自分で作成する場合 ○ コンペのページにアクセスし、CodeタブからNew Notebookボタンを押して新規Notebook を生成する ○ コンペのページから生成したNotebookには最初からコンペのデータセットが追加されている ○ 画像系のコンペではデータセットはたいてい画像(または動画) + meta情報(csv形式が多い) で与えられるので、pandasやmatplotlib等のライブラリを駆使して分析を実施する ● 公開されているものをベースにする場合 ○ 右も左も分からないという状況であれば、公開NotebookからEDAの参考になりそうなものを開き、Copy&Editボタンを押して自分用のNotebookを生成する ○ 実際に処理を実行しながらどのような分析が行われているのか確認する ○ 自分で思いついた新たな観点があればコードを修正・追加して実行してみる Copyright© Fixstars Group 41

https://www.kaggle.com/code/its7171/dfl-benchmark-training

42.

EDAを実施する際の観点参考ページ Basic EDA with Images: https://www.kaggle.com/code/jpmiller/basic-eda-with-images/notebook ● 画像系コンペのデータセットでタスクに依らず確認すべき観点 ○ データセットの枚数 ○ 画像の基本情報(圧縮形式、解像度、ビット幅、etc.) ○ ラベルの種類 ○ ラベルの可視化 ○ ラベル以外のメタ情報 ○ 画像内の認識対象の大きさ (大きく映っているのか、小さく映っているのか、etc.) ○ ラベルの出現頻度 ● タスクの特性に応じた観点 ○ ここはタスクによって様々なので興味のあるタスクのEDA Notebookをご確認ください ○ Object Detectionで言えば、Bounding boxの位置、大きさ、画像毎の数、etc. Copyright© Fixstars Group 42

https://www.kaggle.com/code/jpmiller/basic-eda-with-images/notebook

43.

データセットの分割方針検討 ● 学習用のデータセットをtrainとvalidationに分割する ○ 一般的な機械学習ではtrain、validation、testの3つに分割するのがセオリーだが、Kaggleの場合はPublic test datasetによる評価が都度実施されるのでtestの代替にしてもよい ○ ただし一般的な機械学習でtestの結果を基にモデルを選択するのは良くないとされるのと同様に、KaggleでPublic test datasetの結果でモデルを選択するのは良くないとされる (例外あり) 分析者から見える一般的な機械学習での分割例 train validation 分析者から見えない分析者から見える Kaggleでの分割例 train Copyright© Fixstars Group test validation Public test 43

44.

データセットの分割方針検討参考ページ 3.1. Cross-validation: evaluating estimator performance: https://scikit-learn.org/stable/modules/cross_validation.html ● 画像系コンペで交差検証 (Cross validation) を実施すべきかどうか ○ データが少なく検証結果が不安定等の特殊な事情が無い限り、コンペの初期ではホールドアウト検証で十分であり、限られたマシンリソース下では基本的な実験を色々回すことに注力する方がよい ■ ○ とはいえ分割方法は交差検証を意識したものにしておくと後が楽ホールドアウト検証ではLocalの検証スコアとPublicのスコアの相関が取れない場合は、交差検証を実施してみるのも一つの手かもしれない ○ 精度向上という観点では、交差検証によって生成した複数モデルをアンサンブルして精度を上げるというアプローチもKaggleでは良く見られるので、推論時間が余っている場合にコンペ後半での改善策の一つとして実施するのもアリ Copyright© Fixstars Group 44

https://scikit-learn.org/stable/modules/cross_validation.html

45.

DFLコンペでの事例参考ページ Kaggle_スコアアップセミナー_DFL-Bundesliga_Data_Shootout編: https://www.docswell.com/s/fixstars/KENEMN-20230509 ● コンペの初期はホールドアウト検証を実施し、データに関する洞察を深めることに注力。コンペ中盤からCross validationおよびモデルアンサンブルを導入し、さらなるスコアアップを達成スコアの推移 0.9 0.8 0.7 Val AP 0.6 Public LB 0.5 Private LB 0.4 0.3 Gold line 0.2 Silver line Hold-out validation 0.1 Cross validation Bronze line 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 実験ID Copyright© Fixstars Group 45

https://www.docswell.com/s/fixstars/KENEMN-20230509

46.

データセットの分割方針検討参考ページ https://scikit-learn.org/stable/modules/classes.html#modulesklearn.model_selection ● EDAを通じて得られたデータの特性に応じて分割の方法を決める ● データによって様々な分け方が考えられるが、基本的な決め方は以下の通り Yes StratifiedGroupKFold No GroupKFold Yes StratifiedKFold No KFold ラベルの分布の偏りはあるか？ Yes データリークとなり得る要素はあるか？ No ラベルの分布の偏りはあるか？ Copyright© Fixstars Group 46

https://scikit-learn.org/stable/modules/classes.html#module-sklearn.model_selection

47.

データセットの分割方針検討参考ページ https://scikit-learn.org/stable/modules/classes.html#modulesklearn.model_selection ● EDAを通じて得られたデータの特性に応じて分割の方法を決める ● データによって様々な分け方が考えられるが、基本的な決め方は以下の通り Yes StratifiedGroupKFold No GroupKFold Yes StratifiedKFold No KFold ラベルの分布の偏りはあるか？ Yes データリークとなり得る要素はあるか？具体例: CT画像から病気を識別するタスク同じ患者の画像が複数枚含まれる場合、train とvalの両方に入れてしまうと良い精度が出やすくなるが、実際に予測したいのは未知の患者なのでデータリークとなる No ラベルの分布の偏りはあるか？ Copyright© Fixstars Group 47

https://scikit-learn.org/stable/modules/classes.html#module-sklearn.model_selection

48.

データセットの分割方針検討参考ページ https://scikit-learn.org/stable/modules/classes.html#modulesklearn.model_selection ● EDAを通じて得られたデータの特性に応じて分割の方法を決める ● データによって様々な分け方が考えられるが、基本的な決め方は以下の通り具体例: CT画像から病気を識別するタスク識別対象クラスの中にまれにしか見つからない疾患が存在し、データ全体に占める枚数が少ない場合、ランダムに分割してしまうとtrainまたはvalに一枚も含まれないことが起こり得る Yes StratifiedGroupKFold No GroupKFold Yes StratifiedKFold No KFold ラベルの分布の偏りはあるか？ Yes データリークとなり得る要素はあるか？ No ラベルの分布の偏りはあるか？ Copyright© Fixstars Group 48

https://scikit-learn.org/stable/modules/classes.html#module-sklearn.model_selection

49.

データセットの分割方針検討参考ページ https://www.kaggle.com/competitions/dfl-bundesliga-datashootout/ ● ● 実際のコンペの事例からどの分割方法が良いか考えてみましょう DFLコンペの事例 ○ タスク: ■ サッカーの試合動画から、特定のアクションが発生したタイミングとアクションの種別を検知 ○ ○ アクションの種類: ■ pass, throwin, challengeの3種類動画 ■ train ● ● 12本 (8試合分) video_idの先頭8文字が同じ動画(表の色付き)は同じ試合の前半・後半で分割したもの ■ test ● ● 6本 (3試合分) 分割方法の考え方の観点 ○ ○ データリークとなり得る要素はあるか？ ■ Yesであれば○○GroupKFold ラベルの分布の偏りはあるか？ ■ YesであればStratified○○KFold Copyright© Fixstars Group 動画毎のアクション数内訳 video_id play throwin challenge 1606b0e6_0 319 21 56 1606b0e6_1 434 13 60 35bd9041_0 355 8 48 35bd9041_1 290 12 57 3c993bd2_0 347 14 53 3c993bd2_1 289 17 70 407c5a9e_1 283 11 56 4ffd5986_0 235 10 57 9a97dae4_1 237 6 48 cfbe2e94_0 241 29 35 cfbe2e94_1 232 15 38 ecf251d4_0 324 16 46 49

https://www.kaggle.com/competitions/dfl-bundesliga-data-shootout/

50.

データセットの分割方針検討参考ページ https://www.kaggle.com/competitions/dfl-bundesliga-datashootout/ ● 実際のコンペの事例からどの分割方法が良いか考えてみましょう ○ データリークとなり得る要素はあるか？ → Yes Yes StratifiedGroupKFold No GroupKFold Yes StratifiedKFold No KFold ラベルの分布の偏りはあるか？ Yes データリークとなり得る要素はあるか？ No 同じ試合がtrainとvalに分かれてしまうと、予測が簡単になってしまう可能性があるためここはYes。同じ試合を一つのグループとみなして分割したい。ラベルの分布の偏りはあるか？ Copyright© Fixstars Group 50

https://www.kaggle.com/competitions/dfl-bundesliga-data-shootout/

51.

データセットの分割方針検討参考ページ https://www.kaggle.com/competitions/dfl-bundesliga-datashootout/ ● 実際のコンペの事例からどの分割方法が良いか考えてみましょう ○ ラベルの分布の偏りはあるか？ → Yesだが今回のケースではどちらでも良いアクションごとに発生頻度に偏りがあるのでYes だが、以下のような事情からStratifiedはしなくてもよい - 1動画の中に各アクションは必ず含まれる - 動画数が12本と少なくかつグループの単位が動画のため、均等に分割することが難しい Yes StratifiedGroupKFold No GroupKFold Yes StratifiedKFold No KFold ラベルの分布の偏りはあるか？ Yes データリークとなり得る要素はあるか？ No ラベルの分布の偏りはあるか？ Copyright© Fixstars Group 51

https://www.kaggle.com/competitions/dfl-bundesliga-data-shootout/

52.

53.

54.

ベースラインモデルの学習/推論環境整備 ● 今後モデルを改善していく上でのベースとなるモデルを作る ● EDAの時と同様、右も左も分からない場合は公開Notebookベースが楽 ○ 学習用Notebook, 推論用Notebook, 学習済モデルがセットで公開されていることが多い ○ 公開Notebookが複数ある場合は最もVote数の多いもの選択するのが無難 ■ Scoreの一番高いものを選択しても良いが、公開されたモデルを単純にアンサンブルをしているだけ等の場合もあるため内容を確認した上で選択することが大事 ○ 公開Notebookベースでベースラインモデルの環境を整備する手順はデモのパートで説明する Copyright© Fixstars Group 54

55.

ベースラインモデルの学習/推論環境整備 ● 自分でベースラインモデル用のNotebookを作成する場合は、学習用と推論用の Notebookを準備する ● ベースラインモデルを自前で作る場合のTips ○ ○ ○ 事前学習済みのシンプルなモデルを使う定番の学習設定(利用するライブラリのデフォルト設定でもよい)から始めるライブラリを活用する ■ ○ ○ Pytorch Lightning, OpenMMLab, timm, etc. まずは少ない枚数のデータセットで学習・推論が上手くいくことを確認する疑似乱数のseedを固定する等、出来る限り再現性を確保する ■ ■ 最低限、データの分割方法は実験毎に変わらないよう固定したいその他再現性に関するテクニックは公式ページを参照 ● https://pytorch.org/docs/stable/notes/randomness.html Copyright© Fixstars Group 55

https://pytorch.org/docs/stable/notes/randomness.html

56.

57.

ベースラインモデルの学習に関する注意点 ● Kaggleプラットフォーム上で学習を実行する場合、週30時間のGPU quota を効率良く活用することが重要です ● Notebookの編集画面でGPUインスタンスと接続していると、学習を実行していなくてもGPU quotaが消費されてしまいますので、開発時に対話的な実行が必要であればCPUインスタンスで作業をすることをオススメします ● GPU quotaはCET時間の毎週金曜から土曜に掛けての夜中にリセットされるので、それを見越したスケジューリングをするとよいです ● その他Tipsは公式ページをご参照ください ○ https://www.kaggle.com/docs/efficient-gpu-usage Copyright© Fixstars Group 57

https://www.kaggle.com/docs/efficient-gpu-usage

58.

ベースラインモデルの推論に関する注意点 ● 推論用Notebookを実際に提出する際はNetworkに繋げないことに注意 ○ Network経由でライブラリをインストール出来ない ○ KaggleのDocker環境上にデフォルトでインストールされていないライブラリ等はDatasetとして配置しておく必要がある (デモのパートで具体例を挙げる予定) ● 推論用Notebookをsubmitした後は実際のtestデータセットが見える状態で実行されるので、そのような状態を想定したコードにしておく必要がある ○ 例えば、見えているtestデータセットの枚数に依存したコードを書く等してしまうと、提出時に意図した推論が実行されない Copyright© Fixstars Group 58

59.

ベースラインモデルの精度検証 ● validationデータセット全体に対する精度を算出する ○ 学習用Notebookまたは推論用Notebookで既に算出出来ている場合はその値を使用すればよいが、算出していない場合は別途実装が必要 ○ ここで算出した精度はPublic test dataでの結果と相関を確認する大事な指標になるので、実験条件とセットで記録しておく ■ 実験管理方法については本セミナーの後編で解説予定 ● ここでの精度検証に用いる指標はコンペの精度評価指標に出来る限り合わせたものにする ○ 出来る限りと書いた理由はコンペによっては明確に算出方法が与えられない場合があるため Copyright© Fixstars Group 59

60.

ベースラインモデルの提出 ● 精度検証の結果が問題無ければ、testデータに対して推論用Notebookを実行する ● 実行時にエラーが出た場合は修正して再度実行する ● エラーなく完了したら、Submit to Competitionボタンを押して提出処理を実行する ○ ここから隠されていたPublic test dataおよびPrivate test dataに対する推論が実行される ● 推論が完了したらsubmissionsページにスコアが表示される ○ Activeなコンペの場合はスコアに応じてLeaderboardも更新される Copyright© Fixstars Group 60

61.

62.

63.

ベースラインモデルの分析 ● やみくもに精度改善策を試す前に分析を実施すると効率的に改善を実行できます ● 基本的な分析の観点 ○ ○ 学習結果に問題は無いか？ ■ 過学習 (trainデータに過剰に適合し、validationの精度が低い) ■ 未学習、学習不足 (trainデータに十分に適合できず精度が低い) 推論結果に問題は無いか？ ■ データセットの不備が疑われるような推論が見られる ■ 苦手なクラス、シーンがある ■ False positive、False negative Copyright© Fixstars Group 63

64.

ベースラインモデルの精度改善 ● 学習結果に問題がある場合の改善策 ○ ○ 過学習 ■ データ拡張の追加・パラメータ調整 ■ モデルの規模を小さくする (モデルの表現力を下げる) ■ 正則化の追加 (L1正則化、L2正則化、Dropout、etc.) 未学習、学習不足 ■ データの入力方法や前処理を見直す ■ モデルの規模を大きくする (モデルの表現力を上げる) ■ 学習パラメータ(学習率、Optimizer、スケジューラ、etc.)の設定を見直す Copyright© Fixstars Group 64

65.

ベースラインモデルの精度改善 ● 推論結果に問題がある場合の改善策 ○ データセットの不備が疑われるような推論が見られる ■ ○ 苦手なクラス、シーンがある ■ ■ ○ 原因となっているデータを抽出し、ラベルを修正または除去するデータ拡張の追加・パラメータ調整 loss関数の変更 False positive、 False negative ■ ■ ■ ■ ■ 後処理の追加後処理のパラメータ調整解像度を上げる Test time augmentation モデルアンサンブル Copyright© Fixstars Group 65

66.

67.

Kaggleプラットフォーム上でのデモ ● 対象コンペ ○ https://www.kaggle.com/competitions/plant-pathology-2021-fgvc8 ○ リンゴの木の葉面病害のカテゴリーを識別する Multi-label classification ● デモ内容 (具体的な手順はAppendix参照) ○ コンペの基本情報確認 ○ 簡単なEDAの実行 ○ 学習用Notebookの作成およびベースラインモデルの学習実行 ○ 推論用Notebookの作成およびベースラインモデルの推論実行 ○ ベースラインモデルの提出 ○ 精度改善 Copyright© Fixstars Group 67

https://www.kaggle.com/competitions/plant-pathology-2021-fgvc8

68.

69.

参考文献 ● The Kaggle Book：データ分析競技実践ガイド＆精鋭31人インタビュー ○ URL: https://book.impress.co.jp/books/1122101060 ○ 本日のセミナーで説明した各項目を掘り下げた内容 ● Kaggleに挑む深層学習プログラミングの極意 ○ URL: https://www.kspub.co.jp/book/detail/5305133.html ○ 画像系コンペを題材に入門的な内容から精度改善手法までを丁寧に説明 Copyright© Fixstars Group 69

70.

71.

72.

学習用Notebookの作成およびベースラインモデルの学習実行 (1/2) ● ベースラインとする公開Notebookにアクセス ● ○ https://www.kaggle.com/code/pegasos/plant2021-pytorch-lightning-starter-training/ Copy & Edit ボタンを押す ○ コンペへの参加確認のポップアップが出現した場合は Competition Rules を確認し、問題が無ければ I Understand and Accept ボタンを押す ● 内容を確認する ○ Notebookの初回起動時の時点ではまだGPUインスタンスは有効になっていないため、GPU quotaは消費しない状態ですのでご安心ください ● Save Version ボタンを押して、Save ボタンを押す ● ○ Notebookのバージョンが保存されると同時にGPUインスタンスでの学習処理が実行されます左下のActive Eventボタンから実行したNotebookを開き、問題無く動作していることを確認する ● 無事実行に成功していれば学習完了まで待つ Copyright© Fixstars Group 72

https://www.kaggle.com/code/pegasos/plant2021-pytorch-lightning-starter-training/

73.

学習用Notebookの作成およびベースラインモデルの学習実行 (2/2) ● Notebookの実行が Failed になる場合は原因を特定・修正する ○ 今回のベースラインNotebookではtimmのライブラリを pip でインストールする際にエラーが出ていたので、 timmのバージョンを固定するために推論用Notebookで使用しているtimmを使用するよう修正しています ○ バージョン固定されていないライブラリの影響で古いコードが動かなくなるのは業務でも頻出 ● Notebook右側のDataセクションのAdd Dataボタンを押して、pytorch_image_library を追加 ○ https://www.kaggle.com/datasets/pegasos/pytorch-image-library ● timmをインストールするコマンドを削除し、追加した pytorch_image_library 内のtimm を使用するよう修正する ● Save Version ボタンを押して、Save ボタンを押し、再度学習を実行する ● 実行が完了したらNotebookのOutputからNew datasetを押して、学習結果を保存する Copyright© Fixstars Group 73

https://www.kaggle.com/datasets/pegasos/pytorch-image-library

74.

推論用Notebookの作成およびベースラインモデルの推論実行 ● ベースラインとする公開Notebookにアクセス ○ ● ● ● ● ● https://www.kaggle.com/code/pegasos/plant2021-pytorch-lightning-starter-inference Copy & Edit ボタンを押す内容を確認する Notebook右側のDataセクションのAdd Dataボタンを押して、先ほど保存した学習結果を追加学習したモデルで推論が実行されるようにモデルのパスを修正 Save Version ボタンを押して、Save ボタンを押す ○ Notebookのバージョンが保存されると同時にPublicなtestデータに対するGPUインスタンスでの推論処理が実行されます ● ● ● 左下のActive Eventボタンから実行したNotebookを開き、問題無く動作していることを確認する無事実行に成功していれば推論完了まで待つ実行が完了したら、Outputにsubmission.csvが生成されていることを確認する Copyright© Fixstars Group 74

https://www.kaggle.com/code/pegasos/plant2021-pytorch-lightning-starter-inference

75.

ベースラインモデルの提出 ● 推論用Notebookの実行が完了したら、Notebook右上の︙ からメニューを開き、Submit to competitionボタンを押し、詳細を記入してSubmit実行 ○ ここからPrivateなtestデータに対する推論が実行されます ■ ここの推論はGPUインスタンスで実行されますが、ユーザのGPU quotaは消費されません ● 推論が完了したら、Submission一覧にPublic scoreが表示されます ○ https://www.kaggle.com/competitions/plant-pathology-2021-fgvc8/submissions Copyright© Fixstars Group 75

https://www.kaggle.com/competitions/plant-pathology-2021-fgvc8/submissions

76.

ベースラインモデルの精度改善 ● 入力解像度を上げて再度学習を実行 ○ 解像度を上げるとGPUメモリが足りなくなるため、batch_sizeの調整とgradient accumulationの適用を実施しています ○ もともとのbatch_size=32のところ、半分のbatch_size=16としてgradient accumulation=2とすることで重み更新時の実質のbatch_size=32となります ● 学習が完了したらDatasetを更新 ● 推論用Notebookを以下のように修正しこれまでと同様の手順で提出まで実行 ○ 学習時と同じ解像度で推論するよう修正 ○ Input Dataの学習済みモデルを更新 Copyright© Fixstars Group 76

77.