[DL輪読会]ReDet: A Rotation-equivariant Detector for Aerial Object Detection

747 Views

May 21, 21

#deep learning #Deep Learning #Object Detection #Aerial Imaging #Rotation-equivariant Detector #ReDet

スライド概要

2021/05/21
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.5K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.8K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.4K

各ページのテキスト

DEEP LEARNING JP [DL Papers] ReDet: A Rotation-equivariant Detector for Aerial Object Detection Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業) http://deeplearning.jp/ 1

http://deeplearning.jp/

書籍情報 • タイトル  ReDet: A Rotation-equivariant Detector for Aerial Object Detection • 著者  Jiaming Han, Jian Ding, Nan Xue, Gui-Song Xia (中国武漢大学) • CVPR2021に採択 • Paper  https://arxiv.org/abs/2103.07733 • Code  https://github.com/csuhan/ReDet 2

概要 • 航空写真における物体検出  物体のrotationを配慮すべき  oriented object detectionタスクでもいう  Oriented Bounding Boxes (OBBs)で対応 • 提案手法のcontribution  Backboneにrotation-equivariant CNNを導入し、rotation equivariance[1]とrotation invarianceをencode（oriented object detectionにおけるrotation equivarianceの導入が初）  RiRoI alignを提案し、rotation-equivariant特徴を抽出とrotation-invariant featureを抽出  ネットワークを軽量化すると同時に、SOTAを達成 [1] Equivariance（同変？） is a property that applying transformations to the input produces transformations of the feature in a predictable way 𝛷 𝑇𝑟 𝐼 = 𝑇𝑟 𝛷 𝐼 3

既往研究 - oriented object detection • 既往手法 – – – – – – – 様々な角度で回転させたanchorで、bboxの位置を回帰 → 計算量が増加 RoI transformerで、普通のRoIをrotated RoIに変換し、anchor数を削減物体領域を別の方法で表現（Gliding vertex/mask） R3Det、S2A-Netは、一般の特量マップとrotated bboxをalignする DRNは動的に特徴を選択し、 rotated bboxを検出 CSLは角度の推定をもう一つのタスクとして学習 CenterNetベース（小さい物体にいい精度を示す） • 課題 – 一般的なCNNの場合、入力画像に回転かける≠特徴マップに同じ回転をかける（rotation equivariance）→異なる回転に対応しきれない – Rotation-equivariant networkは、回転不変の特徴を対象としていない • 本手法は、backboneからrotation equivariance特徴を抽出し、headから回転不変特徴を抽出 4

既往研究 - Rotation-equivariant Networks • group conv/hexaconvというconvで畳み込む • 内挿等でリサンプリングしたフィルタや、 circular harmonics（球面調和関数）をフィルタにするなど、 equivariance情報を抽出 • 本手法は、Rotation-equivariant Networksを物体検出のbackboneに導入（初） 5

既往研究 - Rotation-invariant Object Detection • 従来の物体検出手法に対し、回転情報をencodeする機構（パラメータ）と学習データの拡張が必要 • RoI warping拡張し、instance-levelの回転不変情報を抽出 – Rotated RoI warping • 一般的なCNNだと、回転equivariantではないため、回転不変情報の抽出が不完全 • 本手法は、Rotation-invariant RoI Align (RiRoI Align)で、回転equivariant 特徴量から、回転不変特徴を抽出 6

提案手法 - Rotation-equivariant Detector • rotation-equivariant networksをbackboneとする • Rotation-invariant RoI Alignを提案し、RoI毎回転不変特徴を抽出 7

提案手法 - Rotation-equivariant Backbone(ReResNet) • equivariance ：𝛷 𝑇𝑟𝑋 𝐼 = 𝑇𝑟𝑌 𝛷 𝐼 – Where, 𝑇𝑟 =transformation group • translation-equivariance – CNNはtranslation equivariant – 𝑇𝑡 𝑓 ∗ 𝜑 𝑥 = 𝑇𝑡 𝑓 ∗ 𝜑 𝑥 – Where, 𝑇𝑡 =translation group, f=feature map, 𝜑=convolution filters, ∗=convolution operation • translation and rotation-equivariant convolution – 最近の研究成果では、CNNを大きいgroupに拡張することで、同時に達成できる – 𝑇𝑔 𝑓 ∗ 𝜑 𝑔 = 𝑇𝑔 𝑓 ∗ 𝜑 𝑔 – Where, 𝑇𝑔 =rotation group, g=平行移動と回転の半直積 • Rotation-equivariant Networks – 複数rotation-equivariantレイヤで構成 8

提案手法 - Rotation-invariant RoI（RiRoI） Align • rotated RoI（RRoI）は、空間次元（spatial dimension）対応し、回転次元（orientation dimension）特徴に対応しきれていない – max poolingにより、特徴マップから、反応が強い回転情報のみ残す • 空間次元に対し、RiRoIはRRoIと同様に、特徴マップからwarpingし、 alignmentする • 回転次元に対する特徴alignment • 𝑓𝑅 = 𝐼𝑛𝑡 𝑆𝐶 𝑓𝑅 , 𝑟 , 𝜃 , 𝑟 = 𝜃𝑁/2𝜋 • Where, SC=switching channels, Int=feature interpolation, r=index 9

10.

提案手法 - 回転角度の推定 • Rotation-invariant Features – – – – 入力画像に𝑇𝑟 かけても、出力に変化がなければrotation-invariant featuresといえる image、instance、pixel-levelに分解できる RiRoI Alignから得られた特徴マップ 𝛷 𝐼𝑅 = 𝑇𝑟′ 𝛷 𝑇𝑟 𝐼𝑅 Where, HRoI 𝐼𝑅 as the rotation-invariant representation of RRoI 𝑇𝑅 𝐼𝑅 𝛷は特徴空間上の表現 𝑇𝑟′ は𝑇𝑟 の逆変換 𝑇𝑟 = 𝑇 𝜃 , 𝜃は一般的な物体検出手法で学習できる 10

11.

実験 - Datasets • DOTA:回転情報をもつ最大級の航空写真物体検出データセット – Version: • v1.0：2806枚画像（800～4000pixel）、188,282個物体 • v1.5：小さい物体（<10pixel）が追加され、402,089個物体、v1.0より学習が安定 – 1024×1024のパッチ画像にして（stride=824）学習 – Train/test Augmentation: random horizontal flip, multiscale=(0.5,1.0,1.5), random rotation • HRSC2016:船の検出データセット – 1061枚画像（300~1500pixel） – 800×512にリサンプリングして学習 – Augmentation: random horizontal flip 11

12.

実験 – 実施詳細 • baseline – ResNet + FPN – ResNetはImageNetでpretrain • 提案手法 – ReResNet: ImageNet-1Kでpretrain – mmdetectionで手法を構築 12

13.

実験結果 – Ablation Studies • Rotation-equivariant backbone(ReResNet) – 分類精度が落ちるが、検出の精度が良くなる – モデルサイズも大幅に削減 13

14.

実験結果 – Ablation Studies • RiRoI Align – 提案手法の有効性を確認 – interpolationは隣のrotation-equivariant特徴マップで行った方がいい • やり過ぎると、情報が曖昧になってしまう 14

15.

実験結果 – Ablation Studies • rotation augmentation – 提案手法は、特殊なネットワーク内部のrotation augmentationとみなせる – 直接回転のaugmentationとの効果が近いが、収束が早くなる（モデルサイズが同じレベル） 15

16.

実験結果 – Ablation Studies • 汎化性能（別のデータセットで実験） – 他のデータセットでも、提案手法の有効性を確認 – 特に、AP75の結果から、位置推定の性能向上が顕著 16

17.

実験結果 -既存SOTAとの比較 17

18.

実験結果 -既存SOTAとの比較 • 小さい物体において、提案手法の有効性がさらに顕著 18

19.

実験結果 -既存SOTAとの比較 • 単一物体のデータセットでも有効性を確認 19

20.

実験結果 - 結果サンプル 20

21.

まとめ • Backboneに、rotation-equivariant layerを導入、 rotation-equivariant情報を抽出 • RiRoI alignを提案し、 rotation-equivariant情報から、rotation-invariant情報を抽出 • ネットワークサイズを削減する同時に、検出精度を向上 21