>100 Views
November 02, 18
スライド概要
2018/11/02
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] ClusterNet : Detecting Small Objects in Large Scenes by Exploiting Spatio -Temporal Information (CVPR2018) Hideaki Sobue, Sekimoto Lab http://deeplearning.jp/ 1
書誌情報: Detecting Small Objects in Large Scenes by Exploiting Spatio-Temporal Information ◼ 2018 CVPR ◼ 著者:Rodney LaLonde, Dong Zhang, Mubarak Shah ◼ 一言で言うと… ◼ 連続する複数のフレームを入力として使用する。2段階に分けてCNNを適用することで 探索空間を減らす。このような工夫で精度よく小さな物体を検知することに成功した。
タスクについて ◼ Object Detection in WAMI ◼ WAMIはwide area motion imageryの略 ◼ WPAFB 2009というデータセット(車両のみ) ◼ 1.25fpsの動画 ◼ 一般的なObject detectionとの違い ◼ Ground truthがbounding boxではなくcentroidの座標のみ ◼ 1画像に含まれる画像が多い(平均2,000以上) ◼ 画像が巨大(数百万画素~数億画素) ◼ 画像の大きさに対して物体が小さい(0.000007%の面 積,9x18pixel)
タスクについて ◼ 位置と外見のみでは難しい ◼ Faster R-CNN やResNetでもうまく行かない ◼ 何で難しいか? ◼ とても小さい(9x18pixel) ◼ クラス内の多様性が高く、かつ背景と同化しやすい 低解像度かつモノクロ。輪郭もぼやけている ◼ 1.25fpsしかなく、フレームの前後で物体の移動距離が大きい ◼
WAMIに対する既存手法の問題点 ◼ 背景差分法やフレーム差分法 ◼ 大量のFP(誤検出)を取り除く作業が中心になる ◼ 照明の変化に弱い ◼ 動かない物体を検知できない ◼ 位置を予想するネットワーク(Faster R-CNN等) ◼ WAMIの画像が大きすぎてネットワークの入力に不適 ◼ ダウンサンプリングすると検出が困難に ◼ WAMIのground truthは点なので不適(通常は矩形で真値が与えられる) ◼ 時空間を使用した方法 トラッキングしたうえで各フレームごとにCNN等で分類 ◼ 各フレームでの分類に使われるのがsingle-frame detectorであり、時系列の影響を考慮できない ◼
手法 Two-Stage CNN ◼ ClusterNetとFoveaNetの2段階 ◼ ClusterNetでは物体がありそうなROOBI(regions of objects of interest)を絞り込む ◼ FoveaNetではROOBIの画像をinputして各物体の位置を検出 ◼ 真値のx,y座標を中心としてガウシアンフィルタをかけたような塊を真値として与えて学習 (している様子)
手法 ClusterNet 連続する複数フレーム ◼ OUTPUT Density map ◼ この段階で物体がありそうなROOBI(regions of objects of interest)を絞り込む ◼ INPUT この例では次の段階で探索が必要なエリアを9/324 まで絞り込んでいる
手法 FoveaNet 連続する複数フレームのうち一部(ClusterNetで高いスコアの出た部分) ◼ OUTPUT Density map ◼ INPUT Foveaは「網膜の中心窩」という意味
結果 ◼ 複数フレーム使用した時とそうでない時の比較(赤が真値、緑が推測値) 5フレーム使用 1フレームのみ使用
結果 ◼ 既存研究との比較 ◼ 移動物体に対しては既存研究より5~16%F1値が良くなる ◼ 静止している物体に対しては既存研究より50%F1値が良くなる
まとめ ◼ 本研究の成果 ◼ 背景差分法を使わなくて良いため、計算量減少、動いていない物体にも適用可能 ◼ 2段階に分けてCNNを使用することで探索空間を大きく減少 ◼ SOAに対し動いている物体で5-16%、動かない物体で50%F1スコアが向上。位置に関し てもSOA5.5pixelのずれに対し、本手法は2pixelのずれ