【物体検出】SSD

740 Views

November 28, 24

#物体検出 #SSD #深層学習 #コンピュータビジョン #Faster R-CNN

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 28.8K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 21.2K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 17K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 14.4K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

京都大学人工知能研究会KaiRA 11.2K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 10.9K

各ページのテキスト

２０２４年度後期輪読会第7回 [物体検出] SSD 京都大学工学部情報学科宮前明生 0

アジェンダ  SSD以前モデルの課題点  SSDの推論  SSDの学習  実験結果 1

アジェンダ  SSD以前モデルの課題点  SSDの推論  SSDの学習  実験結果 2

SSD以前のモデルの課題点  SSD以前の物体検出モデル（Faster R-CNNなど） 1. バウンディングボックスを検出する 2. 各ボックスに分類器を適用する  課題点 • 計算量が多く、リアルタイム検出に向かない  SSDの概要 • バウンディングボックスを検出と分類を同時に予測する • YOLOよりも計算が早く、Faster R-CNNと同等の精度を出した 3

アジェンダ  SSD以前モデルの課題点  SSDの推論  SSDの学習  実験結果 4

SSDの推論  推論の流れ 1. 異なる大きさで特徴マップに分割する 2. それぞれの特徴マップのマス目ごとに、アスペクト比で4～6種類のデフォルトボックスを生成する 3. デフォルトボックスに対して、画像の分類（クラス分類問題）と、大きさと位置（回帰問題）を推測する 4. 後処理 5

SSDの推論  畳み込みフィルタ • 3×3の畳み込みフィルタを利用している • 画像を縦横38,19,10,5,3,1分割して特徴マップごと畳み込みをする • 特徴マップの1マスの畳み込みフィルタの出力は（ 4～6種類のデフォルトボックス）×（画像分類(classes)＋画像の位置(2)+画像の高さと幅(2)） • 生成されるデフォルトボックスの総数は（特徴マップのマス数）×（デフォルトボックスの種類） 38×38 ×4+19 ×19 ×6+10 ×10 ×6+5 ×5 ×6+1 ×1 ×4=8732 6

アジェンダ  SSD以前モデルの課題点  SSDの推論  SSDの学習  実験結果 7

SSDの学習  学習するデータ • 学習データはGTボックスとそのカテゴリを持つ • 8732個の全てのデフォルトボックスを学習させるのではなく、一部を近しいGTボックスとマッチングさせて学習する  マッチング • マッチングの評価指標としてJaccard係数を用いる • 各GTボックスを最大のJaccard係数を持つデフォルトボックスをマッチングさせて、閾値（0.5）よりも大きい Jaccard係数を持つGTボックスにデフォルトボックスをマッチングさせる • マッチングしたデフォルトボックスをポジティブ、残りをネガティブとして扱う 8

10.

SSDの学習  損失関数 • i番目のデフォルトボックスが、クラスpのj番目のGTボックスにマッチするかをで表す • はポジティブなデフォルトボックスの数 • は各クラスの信頼度、は予測ボックス、はGTボックス • 損失関数は、ボックス推定の損失と、クラス分類の損失からなる • は交差検証から1とする 9

11.

SSDの学習  ボックス推定の損失 • は予測ボックスの中心、は幅、は高さ • ボックス推定の損失は、ポジティブな推定ボックスとGTボックスの差分のsmooth L1 loss • 、はデフォルトボックスの中心から差分、、はデフォルトボックスから何倍したかを対数で表す。( 倍したら ) • GTボックスは次のようにデフォルトボックスで正規化する。 10

12.

SSDの学習  クラス分類の損失 • クラス分類の損失は、ポジティブな推定ボックスの分類に対する交差エントロピーと、ネガティブなボックスの分類に対する交差エントロピーからなる • ネガティブなボックスは背景クラス • は各クラスの信頼度に属することを正解とするでソフトマックスを取った 11

13.

SSDの学習  デフォルトボックスのスケール • 特徴マップに分割するスケールによって、デフォルトボックスのスケールを決定する。 • 分割する特徴マップの種類がm個、特徴マップが小さい順にk番目とすると、デフォルトボックスのスケールは • このモデルでは、とした（1.0は画像全体の大きさ） 12

14.

SSDの学習  デフォルトボックスのアスペクト比 • アスペクト比は • • があると幅、高さが表されるのとき、スケールが , のデフォルトボックスも追加する • 計6種類のデフォルトボックスがある赤のボックスが 13

15.

SSDの学習  ハードネガティブマイニング • ネガティブなボックスが多いので、ポジティブなボックスとネガティブなボックスの比が1:3になるように、ネガティブなボックスのクラス分類の損失ーが大きい順に選ぶ。 • つまり、ネガティブなボックスのうち背景クラスの確率が低いもので学習する  データ補強 • そのまま • 画像の切り取りとGTボックスのJaccard係数の最小値が0.1,0.3,0.5,0.7,0.9になるようにサンプリング • ランダムに画像を切り取りサンプリング • 画像の反転など 14

16.

アジェンダ  SSD以前モデルの課題点  SSDの推論  SSDの学習  実験結果 15

17.

実験結果  精度 16

18.

実験結果  SSDの構成要素の貢献度 • Data augugmentationとは、データ補強 • Atrous Convolutionとは、隙間をあける畳み込み 17

19.

実験結果  計算速度と精度 • FPSは1秒あたりに処理できる画像の枚数 18

20.

参考文献  1512.02325(SSD)  https://qiita.com/ikeyasu/items/a95448254dff958a05b5  https://calc-life.hatenablog.com/entry/2022/10/01/144518 19