【物体検出】概論

7.4K Views

October 05, 24

#物体検出 #深層学習 #コンピュータビジョン #画像認識 #AI

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 29K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 21.7K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 17.6K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 15.6K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

京都大学人工知能研究会KaiRA 11.6K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 11.3K

各ページのテキスト

2024年度後期輪読会 #1 (2024/10/3) 物体検出の技術の全貌をざっくり解説 KaiRA 会長京都大学理学部 4回生 (物理気候学研究室) 松田拓巳 0

アジェンダ n 物体検出とは何か？ n 物体検出を支える”バックボーン” n 物体検出のタスクとアプローチ n 評価指標と損失関数 n 物体検出モデルの歴史 1

物体検出とは何か？物体検出とは、画像の中から「どこに何があるか」を検出する技術物体のクラスバウンディングボックス (bbox; bounding box) 画像引用：https://pjreddie.com/darknet/yolo/ 2

https://pjreddie.com/darknet/yolo/

物体検出とは何か？物体検出モデルの多くは、バックボーン・ネック・ヘッドの構造を持つ Input バックボ｜ンネック画像の特徴量を抽出する部分。事前学習済みモデルを用いることが多い。例） • ResNet • EfficientNet など抽出した特徴量をさらに変換し、多様なスケールの物体を検出しやすくする。例） • FPN • Bi-FPN など Output 例）ヘッドネックから受取った特徴マップに基づいて、物体の位置と種類などを推定する。 • • • 分類ヘッド回帰ヘッドセグメンテーションヘッドなど 3

アジェンダ n 物体検出とは何か？ n 物体検出を支える”バックボーン” n 物体検出のタスクとアプローチ n 評価指標と損失関数 n 物体検出モデルの歴史 4

物体検出を支える”バックボーン” バックボーンは特徴量を抽出するモデルの基盤であり、事前学習済みのものが用いられる事前学習大規模データセット(ex: ImageNet)を使い、あるタスク(ex: クラス分類)を解かせて学習 → 画像の基本的な捉え方を、事前にモデルに教え込む → 高い汎用性・効率的な学習が可能にクラス分類できるように学習させる＝画像から特徴抽出する方法を教える画像：約130万枚※ CNNなどの画像モデル ※ImageNet-1K クラス：1000種類※ dog, cat, desk, castle… 5

物体検出を支える”バックボーン” CNN系バックボーンは、畳み込み層を活用して画像の特徴を捉える ResNet (2015) EfficientNet (2019) 残差接続 (Residual Connection) を導入して勾配消失問題を解消し、深い層のネットワークが可能にネットワークの幅、深さ、解像度を同時に最適化する Compound Scaling Methodを用いて、少ないパラメータで高精度を達成 ※バックボーンは上記以外にもたくさん存在する。CNNバックボーンをもっと知りたい方は↓のWebサイトを参照 CVMLエキスパートガイド「CNNバックボーン(backbone)の代表的アーキテクチャの歴史[まとめ年表]」https://cvml-expertguide.net/terms/dl/cnn/cnn-backbone/ 画像引用：Deep Residual Learning for Image Recognition (2015) ， EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks (2019) 6

物体検出を支える”バックボーン” Transformer系バックボーンは、画像全体を広く捉え、細かい部分も特徴抽出可能 ViT (Vision Transformer, 2021) 画像をパッチ(16 16)に分割し、各パッチを単語とみなしてTransformerを適用 DeiT (Data-Efficient Image Transformers, 2021) 課題 ViTでCNNの精度を超えるには超大規模データセットが必要教師：学習済みのCNN 生徒：未学習のViT として知識蒸留* *学習済みCNNの出力を教師ラベルとして使って ViTを学習させる画像引用：An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (2021)，Training data-efficient image transformers & distillation through attention (2021) 7

物体検出を支える”バックボーン” Transformer系バックボーンでもCNNのような特徴抽出を行い、計算量・精度を改善 Swin Transformer (2021) MaxViT (Multi-Axis Vison Transformer, 2022) 多様な解像度に対応したり、計算量を抑えるために Patch Merging・Shifted Windowsを導入局所的Attentionと大域的Attentionを組み合わせてより良い特徴量を抽出できるように画像引用：MaxViT: Multi-Axis Vision Transformer，Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 8

10.

物体検出を支える”バックボーン” ConvNeXtは、CNNにTransformerの利点を取り入れてViTに匹敵する性能を実現 ConvNeXt (2022) 従来のCNNの設計を見直し、Transformerの利点を取り入れることで、シンプルなConvNetでありながらViTに匹敵する性能を実現画像引用：A ConvNet for the 2020s 9

https://arxiv.org/abs/2201.03545

11.

アジェンダ n 物体検出とは何か？ n 物体検出を支える”バックボーン” n 物体検出のタスクとアプローチ n 評価指標と損失関数 n 物体検出モデルの歴史 10

12.

物体検出のタスクとアプローチバウンディングボックス検出＆分類には、主に2段階型と1段階型の検出手法がある入力画像前半ステージ後半ステージ物体の候補領域を検出してから 2段階型検出モデル領域内のクラスを推論する犬* アンカーを中心にアンカーボックスを複数個用意アンカーベースアンカーボックスで補助しながら犬* 犬* *R-CNN系では物体クラスだけでなく候補領域の修正量も予測する犬犬犬物体位置・クラスを推定するアンカーボックスからのズレを推論して最終的なバウンディングボックスを作成 1段階型犬アンカーフリーアンカーボックスを使わずに物体位置・クラスを推定する素材画像：https://www.peakpx.com/473937/3-brown-puppies 犬犬アンカーボックスに頼らず直接位置を推定 11

https://www.peakpx.com/473937/3-brown-puppies

13.

物体検出のタスクとアプローチセグメンテーションは、物体をピクセル単位で分類するタスクセマンティックセグメンテーションすべてのピクセルに対してクラスを推定クラスが同じなら物体が異なっても同じラベルインスタンスセグメンテーション物体検出＋セグメンテーション位置をbboxで予測＋物体部分の領域予測パノプティックセグメンテーションセマンティック＋インスタンスセグメンテーションすべてのピクセルに対して物体IDとクラスを付与画像引用：Panoptic Segmentation 12

https://arxiv.org/abs/1801.00868

14.

物体検出のタスクとアプローチテキスト物体検出やポーズ推定、3次元物体検出、物体追跡など、多様なタスクが存在する Open-Vocabulary Object Detection (2021) 姿勢推定（ポーズ推定）テキストで指定された未知の物体クラスを検出する画像から人の間接点や顔のパーツを抽出する →事前に定義された物体クラスに制限されない！ →スポーツ分析・ヘルスケア・仮想現実・監視など動画引用：X @Niels Rogge , 画像引用：https://cocodataset.org/#keypoints-2016 13

15.

物体検出のタスクとアプローチテキスト物体検出やポーズ推定、3次元物体検出、物体追跡など、多様なタスクが存在する 3次元物体検出物体追跡画像ではなく3次元データから物体検出動画中の物体をオンラインまたはオフラインで追跡画像引用：https://globe.asahi.com/article/15188347 , https://opencv.org/blog/multiple-object-tracking-in-realtime/ • オンライン：未来のフレームは使えない • オフライン：未来のフレームを使える 14

16.

アジェンダ n 物体検出とは何か？ n 物体検出を支える”バックボーン” n 物体検出のタスクとアプローチ n 評価指標と損失関数 n 物体検出モデルの歴史 15

17.

評価指標と損失関数物体検出の性能はIoUやmAPなどの評価指標で測定される物体検出は、画像の中から「どこに何があるか」を検出するタスク IoU ( Intersection over Union ) mAP ( mean Average Precision ) 予測領域と正解領域がどれくらい重なっているか各クラスのAP(平均適合率)を平均した値 ※APはPR曲線の下の面積から求まる予測結果実際共通部分の面積犬犬以外犬 80 20 犬以外 23 132 AP犬 mAP 予測結果 IoU ＝実際猫猫以外猫 85 20 猫以外 14 136 各クラスのAPの平均 AP猫 3 予測結果和集合の面積実際馬馬以外馬 38 12 馬以外 15 190 AP犬＋AP猫＋AP馬 AP馬 16

18.

評価指標と損失関数損失関数は、タスクやデータ等に応じて適切なものを選択する必要がある物体クラス分類の損失関数 Cross Entropy Loss → クラス分類でよく使う損失関数検出位置の損失関数 IoU → 前ページで説明 GIoU → バウンディングボックスの離れ具合も考慮 $ 𝐶𝐸 𝐭, 𝐲 = − ( 𝑡! log 𝑦! !"# Focal Loss → クラス不均衡、難易度不均衡がある場合 $ 𝐹𝐿 𝐭, 𝐲 = − ( 𝛼! 1 − 𝑦! % 𝑡! log 𝑦! GIoU ＝ IoU ー !"# 𝛼! ：クラス𝑘の重み（クラス不均衡を補正） 𝛾 ：フォーカスパラメータ（難易度に応じて損失を減衰）数が少ないクラスのデータ誤分類しやすいデータ損失を強調する 𝐶：クラス数，𝐭 ∈ {0,1}! ：クラス𝑘の正解ラベル，𝐲 ∈ [0,1]! ：クラス𝑘の予測確率予測領域と正解領域をすっぽり包む領域 17

19.

アジェンダ n 物体検出とは何か？ n 物体検出を支える”バックボーン” n 物体検出のタスクとアプローチ n 評価指標と損失関数 n 物体検出モデルの歴史 18

20.

物体検出モデルの歴史物体検出技術は、テンプレートマッチング、手作り特徴量から深層学習へと進化してきたテンプレートマッチング手作り特徴量深層学習テンプレート画像との相関に基づく SIFTやHOGなどの特徴量を使ったシンプルな機械学習モデル深層学習モデルの登場により複雑な特徴量の抽出が可能に入力画像テンプレート画像 SIFT 検出結果 HOG SVMなど深層学習モデル背景 or 物体画像引用：テンプレートマッチングで物体検出 19

https://qiita.com/ground0state/items/aef8d8a061ecb44b7fbf

21.

物体検出モデルの歴史色々なタイプの物体検出モデルが並列で登場画像引用：30周年記念特別企画：SSII 技術マップ 20

https://confit.atlas.jp/guide/event/ssii2024/static/special_project_tech_map

22.

物体検出モデルの歴史色々なタイプの物体検出モデルが並列で登場 2段階型検出モデル 1段階型検出モデルアンカーベースアンカーフリー ▼ SSD ▼ YOLO ▼ RetinaNet ▲ Fast R-CNN Faster R-CNN ▶ 画像引用：Rich feature hierarchies for accurate object detection and semantic segmentation, Fast R-CNN, Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, SSD: Single Shot MultiBox Detector, Focal Loss for Dense Object Detection, You Only Look Once: Unified, Real-Time Object Detection 21

23.

物体検出モデルの歴史特徴集約の工夫（ネック部分）によって精度向上 FPN (Feature Pyramid Networks; 2017) EfficientDet (2020) スキップ接続・Encoder-Decoder構造によりマルチスケール性能*が改善バックボーンにEfficientNetを使用 BiFPNで複数スケールの特徴マップをうまく混合 *大小さまざまなサイズの物体を検出する能力画像引用：FPN (Feature Pyramid Networks) とその発展型, EfficientDet: Scalable and Efficient Object Detection 22

24.

物体検出モデルの歴史 Transformerを取り入れた物体検出モデルも登場 DETR (DEtection TRansformer; 2020) DINO (DETR with Improved deNoising anchOr boxes) Transformer (Encoder-Decoder型) で物体検出 DETRの問題を解消したモデル • • Decoderの出力をFFNに渡し、物体クラスとbboxの位置を出力。物体がない場合はno objectに分類される。バックボーンやデータセットの大きさでスケールしない・学習の収束が遅い、などの問題を解消 Deformable DETRとDN-DETRという手法を改善＆組み合わせマルチスケール特徴抽出画像引用：End-to-End Object Detection with Transformers, DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection Transformer Contrastive Denoising 23

25.

物体検出モデルの歴史近年では、大量データで学習させた”基盤モデル”により高い汎化性能を実現大規模データで学習させるタスク1 基盤モデルタスク2 (foundation model) … 追加学習しなくてもさまざまなタスクに対応可能！ * ファインチューニングでさらに精度を高めることも可能タスクN 基盤モデルの有名な例 • 大規模言語モデル：GPT (OpenAI)、Llama (Meta)、Claude (Anthropic)、Gemma (Google) … • 画像生成 • マルチモーダル：CLIP (OpenAI)、GPT-4o (OpenAI)、Claude 3 (Anthropic) … ：DALL-E (OpenAI)、Stable Diffusion (Stability AI)、Imagen (Google) … 24

26.

物体検出モデルの歴史 Metaがさまざまな物体検出系の基盤モデルを公開しまくっている SAM (Segment Anything Model; 2023) ゼロショット*でも高精度にセグメンテーションが可能。 2024年7月に動画対応した「SAM2」を発表 Depth Anything (2024) 深度(奥行き)を推定する。たった1年で2つのverisonを公開 Raw Image Depth Anything V1 Depth Anything V2 *ゼロショット＝ファインチューニングなし Sapiens (2024) 下記4つのモデルをまとめてSapiensと呼んでいる。3億枚の画像で学習 • Sapiens Pose：2Dポーズ推定 • Sapiens Segmentation：身体部位のセグメンテーション • Sapiens Depth：深度推定 • Sapiens Normal：表面法線予測画像/動画引用：Segment Anything, Depth Anytihng V2, Sapiens 25

27.

アジェンダ n 物体検出とは何か？ n 物体検出を支える”バックボーン” n 物体検出のタスクとアプローチ n 評価指標と損失関数 n 物体検出モデルの歴史 26

28.