[DL輪読会]Libra R-CNN: Towards Balanced Learning for Object Detection

>100 Views

July 19, 19

#deep learning #Deep Learning #Object Detection #Balancing Learning #Libra R-CNN #imbalance

スライド概要

2019/07/12
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 83.3K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 53K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 38.3K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 33.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 30.6K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Libra R-CNN: Towards Balanced Learning for Object Detection Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業) http://deeplearning.jp/ 1

http://deeplearning.jp/

Libra R-CNN[1]概要 ➢ CVPR2019に採択された ➢ 共著者に、香港中文大Multimedia研究室および、SenseTimeの研究者が入っている ➢ コード： https://github.com/OceanPang/Libra_R-CNN ➢ 既存の物体認識における3大課題を分析し、簡単かつ有効な解決策を提案 – 物体領域の抽出段階のimbalance – 特徴の抽出段階のimbalance – 最適化する段階のimbalance 2

https://github.com/OceanPang/Libra_R-CNN

Libra R-CNN概要 ➢ 最近の物体認識の処理の流れ – 物体領域の抽出（sampling regions）→ 抽出した特徴と融合 → 分類・検出枠の最適化 ➢ 物体認識の性能を影響する要素 – Sample level • 物体領域の抽出：ハードサンプルは学習されていない – Feature level • 特徴の融合：浅い層と深い層の特徴のバランスを取っていない – Objective level • 分類・検出枠の最適化：Loss関数はマルチタスクに適切か • 難易度の異なるタスクの勾配が異なる – 3種類のimbalanceが課題 3

既往研究 ➢ Sample level imbalance – OHEM(Online Hard Example Mining) [2] • 確信度でハードを選ぶ • 計算量が増える • ノイジーなラベルに弱い – focal loss[3] • backgroundのlossを抑え、foregroundのlossを強調する • two-stage法において、効果が限られている – ハードサンプルの学習が課題 OHEMネットワーク構造 4

既往研究 ➢ Feature level imbalance – FPN[4] • マルチスケールな特徴を抽出できる – PANet[5]: • 最初と最後レイヤを繋ぐことで性能を向上 – 特徴は隣接するレイヤのみ抽出されていることが課題 PANetネットワーク構造 5

既往研究 ➢ Objective level imbalance – UnitBox[6]: • Bounding boxの精度を向上するIoU lossを提案 – IoUNet[7]: • Bounding boxのIoUも同時に推定するタスクを追加 – localizationの最適化のみ注目している IoU loss IoUNet 6

提案手法 - IoU-balanced Sampling ➢ IoU-balanced Sampling – ランダムなサンプリング結果、IoUの高いハードネガティブの割合が低い – サンプルのIoUを配慮したサンプリング方法(IoU-balanced sampling)を提案 ◼ サンプルのIoUを何段階に分けて、各段階から選択する N：選択するネガティブサンプルの数 M：候補数 K：IoUを等分する区間数 Mk：各区間のサンプル数 – シンプルにハードサンプルが選択される割合を上げる 7

提案手法 - Balanced Feature Pyramid ➢ Balanced Feature Pyramid – 各層から抽出した特徴を統合するネットワークを提案する • Ciを同じサイズにリサンプリング（interpolation/max pooling）して、統合する  パラメータは発生しない • embedded Gussian non-local attention [8]で統合した特徴マップをrefineする • 元の解像度に戻し（interpolation/max pooling）、 Ciと統合する • 各特徴マップでも、全体の特徴を含んでいる 8

提案手法 - Balanced L1 loss ➢ Balanced L1 loss 既存手法のloss: – 既存手法では、重みλでタスクごとのlossを調整している – Llocはunbounded regressionのため、最適化は、loss≥1 というoutliersに偏ってしまう • Smooth L1 lossにより、outliersの勾配が1になる Smooth L1 loss: Smooth L1勾配伝播式: • lossの小さいinliersの平均勾配はoutliersの約30％（根拠は示さず。。） – inliersでも、最適化できるbalanced L1 lossを提案 9

10.

提案手法 - Balanced L1 loss ➢ Balanced L1 loss – inliersの勾配を大きくするlossを提案：勾配の伝播からloss関数を設計する Balanced L1 loss: 勾配伝播の近似：勾配伝播式： x=1の時、関数の連続性を保つため、 Balanced L1 loss式: 10

11.

実験 ➢ COCO test-devデータセットにおいて、既存のstate-of-the-art手法と比較 ➢ 提案した3つの改良について、それぞれの効果を検証 11

12.

実験 ➢ IoU-balanced Samplingに関する検証 – Random Samplingより、候補領域が対象に集中している – RPNより、大幅に改善 – IoUを等分する区間数K＝3の最も性能がよい 12

13.

実験 ➢ Balanced Feature Pyramidに関する検証 – 各層の特徴マップの統合+non-local attentionの有効性を確認した 13

14.

実験 ➢ Balanced L1 Lossに関する検証 – Smooth L1 Lossより性能が高いことを確認した – α=0.5, γ=1.5が性能が最もよい 14

15.

まとめ ➢ 物体検出の学習段階における課題を分析した – sample、feature、objective段階のimbalanceを指摘 ➢ 3つのimbalanceそれぞれの改善した手法を提案 – 実験を通して、提案の有効性を確認した – two-stageおよびone-stage法に有効であると確認した ➢ 提案方法はシンプルでありながら、有効 – 元のネットワークを大きく変えないため、実装が便利 – 汎用的 – non-local attentionの計算量が大きいため、リアルタイム性が欠けている 15

16.

ご清聴ありがとうございます Reference: [1] Libra R-CNN: Towards Balanced Learning for Object Detection, https://arxiv.org/abs/1904.02701 [2] Training region-based object detectors with online hard ex- ample mining, https://arxiv.org/abs/1604.03540 [3] Focal loss for dense object detection, https://arxiv.org/abs/1708.02002 [4] Feature Pyramid Networks for Object Detection, https://arxiv.org/abs/1612.03144 [5] Path aggregation network for instance segmentation, https://arxiv.org/abs/1803.01534 [6] UnitBox: An advanced object detection network, https://arxiv.org/abs/1608.01471 [7] Acquisition of localization confidence for accurate object detection, https://arxiv.org/abs/1807.11590 [8] Non-local Neural Network, https://arxiv.org/pdf/1711.07971.pdf 16