[DL輪読会]Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

309 Views

May 15, 20

スライド概要

2020/05/15
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業) http://deeplearning.jp/ 1

2.

書籍情報 • タイトル  Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector • 著者  Qi Fanq, Wei Zhuo, Chi-Keung Tang, Yu-Wing Tai  HKUST(香港科技大学)とTencentの共同研究 • CVPR2020に採択 • Code  https://github.com/fanq15/FSOD-code?  https://github.com/fanq15/Few-Shot-Object- Detection-Dataset 2

3.

概要 • 手法の概要: support画像とquery画像間の特徴をマッチングする能力を学習し、fewshot object detection手法を提案 • 提案手法のポイント Attention RPNで、proposalを対象カテゴリに絞る Multi-Relation Detectorで、query画像におけるproposalとsupport画像と マッチングすることで、推定結果を選別する Contrastive learning strategyで、マッチング性能を向上する FSODの大規模なデータセットを構築 3

4.

既往研究 • Few-shot learning  support画像とquery画像を入力とし、 query画像がsupport画像と同じカテゴリかを判別 する。基本的には、特徴抽出と、特徴間の距離で同じ物体かを判定するという二つの ネットワークがある  最近のトレンドはmeta learning的な方法で、タスク間の共通するメタな特徴を学習、 metric learningなどで特徴をマッチング  抽出する特徴に工夫:support画像からglobal/local特徴を抽出  特徴間距離の学習に工夫:ロジスティック回帰で距離を学習、Graph CNNでカテゴリ間の関係を学習 support image 距離で同じカテ ゴリかを判定 4 query image

5.

既往研究 • few-shot object detection  問題設定: support画像(close-up image of object)を 用いて、query画像における物体を検出する 対象カテゴリは学習データに含まれない カテゴリ数=N、support画像数=Kの場合は、 N-way K-shot detectionという  LSTD(Chen et al., 2018)は、大規模なデータセットでナレッジを学習し、小規模なデータ セットに適用する手法を提案したが、汎用性が課題  (Kang et al., 2019), (Karlinsky et al., 2019), (Yan et al., 2019)は、category-specific embeddingを学習することで実現するが、新たにカテゴリを追加する場合は、別途finetuningが必要となる 5

6.

FSOD: A Highly-Diverse Few-Shot Object Detection Dataset • few-shot object detctionのキーは、新しいカテゴリーに対する汎化性能 • 学習データの多様性が重要となるが、既存データセットのカテゴリーは少ない /few-shot object detection専用の大規模なデータセットがない • Open image & ImageNetより、データセットを構築する  ラベリングシステムの再構築  小さい物体を省く( >= 画像サイズ * 0.05%)  train set: 800種類  test set: trainから距離が長い200種類を選定 • 特徴  High diversity in categories  Challenging setting box size/aspect ratio, high box/img 6

7.

提案手法のフレームワーク • • • • • Weight-shared backboneで特徴を抽出 Attention RPNで対象外カテゴリをフィルターする Multi-Relation Head(detector)で、同じカテゴリかを推定 N-wayの場合は、N個Attention RPN K-shotの場合は、backboneで取得した特徴の平均値を使用 7

8.

Attention-based Region Proposal Network • 普通のRPNは、物体らしくない(背景)proposalを除外する役割 • attention機構を入れることで、対象カテゴリ以外(negative)proposalを除外 することができる  depth-wise cross correlation (Li et al., 2019) where, X=support feature, Y=query feature  support featureは、average poolingにした後、depth-wise kernelの役割となる  Kernel size = 1の時、性能の最も良い  RPNのtop layerに適用( i.e. the res4_6 in ResNet50 ) global featureに、分類用のobject priorがあるため ただし、ablation studyは欠けていた 8

9.

Multi-Relation Detector • 三つの関係性から、supportとqueryのproposalの類似性をはかる  global-relation head support feature: fs query feature: fq  deep embedding for global matching  concatenate(fs, fq)→FCでmatching scoreを推定  local-relation head  pixel & depth-wise matching  depth-wise similarity→FCでmatching scoreを推定 where, S=H=W=7  patch-relation head  one-to-many pixel relationship  concatenate(fs, fq)→patch-relation moduleで空間 解像度を(1, 1)に落とす→FCでmatching scoreを推定  別のFCで位置を推定 9

10.

Two-way Contrastive Training Strategy • 性能の高いモデルは、異なるカテゴリを区別できる • 2-way contrastive training strategy:  training triplet (sc, qc, sn)を用意:c=対象カテゴリ、n=対象外カテゴリ  一方、学習において、大量な背景proposalが生成される  matching pairsの比率を調整 (pf, sp) : (pb, sp) : (p, sn) = 1:2:1 (pf, sp): N個(全てのforeground proposal: positive support pairs) (pb, sp): top 2N (matching scoresで選択) (p, sn): top N(matching scoresで選択) • Loss Function  Lmatching : binary cross-entropy  Lbox : smooth L1 loss 10

11.

実験 • 既存SOTA手法との比較 – test data: ImageNet based 50-way 5-shot / MS COCO based 20-way 10-shot detection scenario – 提案手法および、提案データセットFSODの有効性を確認できた – FSODで学習した場合、fine-tuningしなくても、既存手法を上回る 11

12.

実験 • 実環境における検証 • 5-shot wild penguin detection • 10-shot car detection  Training data: KITTI. Validation/Test data: Cityscapes  Fine-tuningなし AP50 on KITTI AP50 on Cityscapes DA Faster R-CNN 38.5 64.1 Ours 67.4 37.0 12

13.

実験 • More Categories vs. More Samples?  few-shot object detectionにおいて、カテゴリ情報の方が重要 13

14.

Ablation Study • Attention PRN • Multi-Relation Detector  Patch-Relationは関係性が複雑なため、学習 が難しくなる • Two-way Contrastive Training Strategy  negative supportカテゴリは、1種類で十分 14

15.

まとめ • Attention RPN, Multi-Relation Detector, 2-way contrastive training strategyという方法で、few-shot object detection手法を提案した • few-shot object detection専用の大規模なデータセット、FSODを構築した • 提案手法がFSODで学習した場合、Fine-tuningなしでも、既存手法の性能 を上回る • contrastive learningで、negative samplesをうまく利用する • サンプル画像を数倍用意することで、相対的に良い検出性能を達成できる  新たにラベリング作業を行う状況に対応できる 15