【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor Monocular Object Pose Estimation

0.9K Views

July 25, 22

スライド概要

2022/7/22
Deep Learning JP
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] “EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation” Presenter: Takahiro Maeda D1 (Toyota Technological Institute) http://deeplearning.jp/

2.

目次 1. 2. 3. 4. 5. 6. 書誌情報 概要 研究背景 提案手法 実験結果 考察・所感 2

3.

1. 書誌情報 紹介論文 タイトル: EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation 出典: CVPR2022 Best Student Paper 著者: Hansheng Chen, …, Hao Li. 所属: 同済大学(中国),Alibaba 選書理由 CVPR2022のBest Student Paperに興味がある ※引用は最後にまとめてあります.特に明示が無い場合は,紹介論文,動画から引3

4.

2. 概要 • argminの学習不安定性を緩和する手法を提案 ① 物体姿勢推定は Perspective-n-Point (PnP) が比較的高精度 ② しかし,PnPはargmin処理により,微分不可・学習不安定 ③ 提案手法(EPro-PnP)では,argmin出力を確率分布とする ことで微分可能にし,End-to-End学習を可能にした. Perspective-n-Point (PnP)問 題[1] 4

5.

3. 研究背景: Direct Pose Prediction 姿勢の例 ෨ ෤𝒕 姿勢 𝑅, 2D画像 損失関数 6次元姿勢推定[2] 3次元位置 3次元回転 良い点 • 単純 • 物体形状を必要としない 悪い点 • (PnPと比べ)解釈性が低い • 過学習,汎化性能悪い(見た目の変化に過敏) 3次元物体検出(車載系)[3] 平面上2次元位置 鉛直方向1次元回転 5

6.

3. 研究背景: Perspective-n-Point (PnP) 物体形状が既知の場合... 3点以上の対応付けから 姿勢推定が可能 (PnP) 3 𝒙3D 𝑖 ∈ ℝ : 物体表面上の3次元点 2 𝒙2D 𝑖 ∈ ℝ : 画像上の2次元点 𝒘2D 𝑖 ∈ ℝ2+ : 各2次元点の重要度 良い点 • 高精度 • 計算式が明示的で解釈性が高い 悪い点 • 物体形状が必要 2D ෨ 𝒕෤ = argmin𝑅,𝒕 ෍ 𝒘2D 𝑅, ∘ 𝜋 𝑅𝒙3D 𝑖 𝑖 + 𝒕 − 𝒙𝑖 𝟐 𝑖 推定姿勢 投影した3次元 点 End-to-End学習で 物体形状もimplicitに 学習可能...? 2次元点 6

7.

3. 研究背景: End-to-EndなPnPの課題 3 𝒙3D 𝑖 ∈ ℝ : 3次元 点 2 𝒙2D 𝑖 ∈ ℝ : 2次元 PnP solver argmin𝑅,𝒕 ෍ 𝐞𝐫𝐫 𝟐 ෨ 𝒕෤ 姿勢 𝑅, 𝑖 不連続 勾配更新前後の損失の急激な変化 2 : 重要度 𝒘2D ∈ ℝ + 𝑖 点 2D画像 良い点 • PnPにより(学習可能ならば)高 精度 • 物体形状を必要としない 悪い点 • argminに対して勾配を通すため,学習が不 損失関数 提案手法 7

8.

4. 提案手法: argminから確率分布への緩和 従来法 3 𝒙3D 𝑖 ∈ ℝ 𝒙2D 𝑖 ∈ ℝ2 2 𝒘2D 𝑖 ∈ ℝ+ 2D画像 PnP solver argmin𝑅,𝒕 ෍ 𝐞𝐫𝐫 𝟐 ෨ ෤𝒕 姿勢 𝑅, 𝑖 不連続 損失関数 MSE 提案手法 損失関数 KL divergence Softmax 3 𝒙3D 𝑖 ∈ ℝ 2 𝒙2D 𝑖 ∈ ℝ 2 𝒘2D 𝑖 ∈ ℝ+ 2D画像 EProPnP 連続 確率分布 Pose GT分布[4] 8

9.

4. 提案手法: categorical softmaxとの対比 入力空間 Categorical 離散 Softmax ( クラス数 ) EPro-PnP 推定分布 GT分布 損失関数 exp(𝑥𝑖 ) σ𝑖 exp(𝑥𝑖 ) onehot 1 exp(− 𝒆𝒓𝒓(𝒚, 𝑿) 2 連続値 1 ( 姿勢空間 ) ‫ ׬‬exp − 2 𝒆𝒓𝒓 𝒚, 𝑿 2 2 ) Cross Entropy KL デルタ 𝑑𝒚 関数 Divergence 3 𝒙3D 𝑖 ∈ ℝ 2 𝒙2D 𝑖 ∈ ℝ 2 𝒘2D 𝑖 ∈ ℝ+ ෨ ෤𝒕 姿勢 𝑅, 𝑿 𝒚 9

10.

4. 提案手法: 損失関数 𝐿 = 𝐷KL 𝛿gt 𝒚 = න 𝛿gt 𝑝 𝒚𝑿 𝛿gt 𝒚 𝒚 log 𝑑𝒚 𝑝 𝒚𝑿 確率密度関数におけるKLDの定義 = − න 𝛿gt 𝒚 log 𝑝 𝒚 𝑿 𝑑𝒚 + const 𝑿に関わらない項を定数に = −log 𝑝 𝒚gt 𝑿 + const 1 1 2 = 𝒆𝒓𝒓 𝒚gt , 𝑿 + log න exp − 𝒆𝒓𝒓 𝒚, 𝑿 2 2 デルタ関数の積分の定義 GT姿勢の確率を最大化 2 𝑑𝒚 𝑝(𝒚|𝑿)の定義,const省略 他の姿勢の確率を最小化 𝑝(𝒚|𝑿) 確率分布 確率分布 損失関数 KL divergence Pose 𝛿gt (𝒚) GT分布[4] 10

11.

4. 提案手法: 重点サンプリングによる積分値の近似 log න exp − 1 𝒆𝒓𝒓 𝒚, 𝑿 2 2 𝑑𝒚 = log න 𝑓 𝒚 𝑑𝒚 𝑓 𝒚 = log න 𝑞 𝒚 𝑑𝒚 𝑞 𝒚 𝑓(𝒚)と置く 𝑞𝒚 𝑞(𝒚) = 1を掛け合わせる. = log 𝔼𝑞 ただし,𝑞(𝒚)はサンプリング可な確率分 布 積分を期待値とする 𝑖 𝑞(𝒚)からのサンプルによる期待値の近似 (重点サンプリング) 𝑓 𝒚 𝑞 𝒚 𝑓 𝒚 ≈ log ෍ 𝑞 𝒚 重点サンプリングの近似精度は𝑞(𝒚)の選択に依存 推定空間に合わせた分布を選択する必要がある. 姿勢推定: 3次元位置 1次元角度 t分布 von Mises distribution と一様分布の 3次元角度 Angular Central Gaussian 混合 11

12.

5. 実験結果: 6次元姿勢推定 CDPN: PnPベースの6次元姿勢推定従来法 6次元姿勢推定[2] 12

13.

5. 実験結果: 3次元物体検出 3次元物体検出(車載系)[3] 平面上2次元位置 鉛直方向1次元回転 13

14.

6. 所感・考察 • softmaxの連続空間verを提案 – 身近な場所にbest paperの種が落ちている • • • • argminは古典的アルゴリズムで頻出するため,応用範囲が広い 解法がシンプル 性能も向上 流石best paper 14

15.

引用 [1] Perspective-n-Point問題 http://www.sankoshoko.net/note.php?id=y15w [2] EfficientPose https://github.com/ybkscht/EfficientPose [3] KITTI http://www.cvlibs.net/datasets/kitti/ [4] Dirac delta https://jp.mathworks.com/help/symbolic/sym.dirac.html 15