[DL輪読会]ClusterNet: Detecting Small Objects in Large Scenes by Exploiting Spatio-Temporal Information (CVPR2018)

>100 Views

November 02, 18

#deep learning #Deep Learning #Object Detection #Spatio-temporal Information #ClusterNet #CNN

スライド概要

2018/11/02
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.5K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.8K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.4K

各ページのテキスト

DEEP LEARNING JP [DL Papers] ClusterNet : Detecting Small Objects in Large Scenes by Exploiting Spatio -Temporal Information (CVPR2018) Hideaki Sobue, Sekimoto Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報: Detecting Small Objects in Large Scenes by Exploiting Spatio-Temporal Information ◼ 2018 CVPR ◼ 著者:Rodney LaLonde, Dong Zhang, Mubarak Shah ◼ 一言で言うと… ◼ 連続する複数のフレームを入力として使用する。2段階に分けてCNNを適用することで探索空間を減らす。このような工夫で精度よく小さな物体を検知することに成功した。

タスクについて ◼ Object Detection in WAMI ◼ WAMIはwide area motion imageryの略 ◼ WPAFB 2009というデータセット（車両のみ） ◼ 1.25fpsの動画 ◼ 一般的なObject detectionとの違い ◼ Ground truthがbounding boxではなくcentroidの座標のみ ◼ 1画像に含まれる画像が多い(平均2,000以上) ◼ 画像が巨大(数百万画素～数億画素) ◼ 画像の大きさに対して物体が小さい(0.000007%の面積,9x18pixel)

タスクについて ◼ 位置と外見のみでは難しい ◼ Faster R-CNN やResNetでもうまく行かない ◼ 何で難しいか？ ◼ とても小さい（9x18pixel） ◼ クラス内の多様性が高く、かつ背景と同化しやすい低解像度かつモノクロ。輪郭もぼやけている ◼ 1.25fpsしかなく、フレームの前後で物体の移動距離が大きい ◼

WAMIに対する既存手法の問題点 ◼ 背景差分法やフレーム差分法 ◼ 大量のFP（誤検出）を取り除く作業が中心になる ◼ 照明の変化に弱い ◼ 動かない物体を検知できない ◼ 位置を予想するネットワーク(Faster R-CNN等) ◼ WAMIの画像が大きすぎてネットワークの入力に不適 ◼ ダウンサンプリングすると検出が困難に ◼ WAMIのground truthは点なので不適（通常は矩形で真値が与えられる） ◼ 時空間を使用した方法トラッキングしたうえで各フレームごとにCNN等で分類 ◼ 各フレームでの分類に使われるのがsingle-frame detectorであり、時系列の影響を考慮できない ◼

手法 Two-Stage CNN ◼ ClusterNetとFoveaNetの2段階 ◼ ClusterNetでは物体がありそうなROOBI(regions of objects of interest)を絞り込む ◼ FoveaNetではROOBIの画像をinputして各物体の位置を検出 ◼ 真値のx,y座標を中心としてガウシアンフィルタをかけたような塊を真値として与えて学習（している様子）

手法 ClusterNet 連続する複数フレーム ◼ OUTPUT Density map ◼ この段階で物体がありそうなROOBI(regions of objects of interest)を絞り込む ◼ INPUT この例では次の段階で探索が必要なエリアを9/324 まで絞り込んでいる

手法 FoveaNet 連続する複数フレームのうち一部（ClusterNetで高いスコアの出た部分） ◼ OUTPUT Density map ◼ INPUT Foveaは「網膜の中心窩」という意味

結果 ◼ 複数フレーム使用した時とそうでない時の比較（赤が真値、緑が推測値） 5フレーム使用 1フレームのみ使用

10.

結果 ◼ 既存研究との比較 ◼ 移動物体に対しては既存研究より5~16%F1値が良くなる ◼ 静止している物体に対しては既存研究より50%F1値が良くなる

11.

まとめ ◼ 本研究の成果 ◼ 背景差分法を使わなくて良いため、計算量減少、動いていない物体にも適用可能 ◼ 2段階に分けてCNNを使用することで探索空間を大きく減少 ◼ SOAに対し動いている物体で5-16%、動かない物体で50%F1スコアが向上。位置に関してもSOA5.5pixelのずれに対し、本手法は2pixelのずれ