【DL輪読会】LoFTR: Detector-Free Local Feature Matching with Transformers

18K Views

April 23, 21

#deep learning #Deep Learning #Image Matching #LoFTR #CVPR 2021 #Transformers

スライド概要

2021/04/23
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 91K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 68K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 48.1K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] LoFTR: Detector-Free Local Feature Matching with Transformers Kento Doi, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

紹介する論⽂ • LoFTR: Detector-Free Local Feature Matching with Transformers • • • • Conference arXiv Project page GitHub : CVPR2021 : https://arxiv.org/abs/2104.00680 : https://zju3dv.github.io/loftr/ : https://github.com/zju3dv/LoFTR • Transformerを⽤いた画像マッチングの⼿法の提案 üDense matching üDetector-free üHigh-quality matches on regions with: • low-texture • repetitive patterns https://zju3dv.github.io/loftr/

Matches on a low-texture area https://zju3dv.github.io/loftr/

https://zju3dv.github.io/loftr/

Qualitative comparison with SuperGlue https://zju3dv.github.io/loftr/

https://zju3dv.github.io/loftr/

背景 • 特徴点マッチング • 異なる視点の画像間で同じ物体の特徴点を対応づけるタスク • 特徴点の検出→記述⼦の計算→マッチングのパイプライン • Pros & Cons ü特徴点を絞り込むことで探索空間を削減できるテクスチャの乏しいシーンが苦⼿繰り返しのパターンに弱い視点変化、照明条件の変化 • Consへの対策：Detector-freeかつpixel-wiseの密なマッチング • CNNを⽤いる場合、受容野の広さが限られるという課題 ØTransformerによる⼤域的なコンテキストを考慮したマッチングを提案

関連研究 : SuperGlue • SuperGlue: Learning Feature Matching with Graph Neural Networks (ECCV2020) • • • • GNN + 最適輸送アルゴリズムによる特徴点マッチング GNNにself-/cross-attentionを導⼊最適輸送アルゴリズムでマッチングを学習密なマッチングではない P.-E. Sarlin et al. SuperGlue: Learning Feature Matching with Graph Neural Networks. ECCV, 2020.

提案⼿法 : LoFTR • LoFTR : Local Feature Transformer • 4つのモジュールから構成されるネットワーク J. Sun et al. LoFTR: Detector-Free Local Feature Matching with Transformers. CVPR, 2021.

1. Local Feature Network • ⼊⼒：画像ペア (𝐼 ! , 𝐼 " ) • 出⼒：2枚の特徴マップ • それぞれ1/8, 1/2 スケール • FPNネットワーク J. Sun et al. LoFTR: Detector-Free Local Feature Matching with Transformers. CVPR, 2021.

2. Local Feature Transformer (LoFTR) Module • ⼊⼒：パッチに分割した特徴マップ (1/8スケールの⽅) • 出⼒：パッチの総数と同じ数の特徴ベクトル • self-attentionとcross-attentionを繰り返すTransformer (左図) • 計算量削減のため、Linear Attention (右図) を使⽤ J. Sun et al. LoFTR: Detector-Free Local Feature Matching with Transformers. CVPR, 2021.

10.

3. Matching Module • ⼊⼒：LoFTRモジュールの出⼒ • 出⼒：割り当て⾏列（マッチングを表現する0, 1の⾏列） • 最適輸送アルゴリズムにより微分可能なマッチングを⾏う • ⾏・列⽅向の正規化を繰り返す J. Sun et al. LoFTR: Detector-Free Local Feature Matching with Transformers. CVPR, 2021.

11.

4. Coarse-to-fine Module • ⼊⼒：割り当て⾏列、1/2スケールの特徴マップ • 出⼒：ピクセルレベルのマッチング • correlationとsoftmaxによりサブピクセルレベルでマッチングを計算 J. Sun et al. LoFTR: Detector-Free Local Feature Matching with Transformers. CVPR, 2021.

12.

Loss function • Coarse matching : クロスエントロピーロス • Fine matching : 回帰 (L2) ロス

13.

実験 4つのタスクで検証 1. 2. 3. 4. Homography estimation Relative post estimation Visual localization 提案⼿法の分析タスク1 データセットタスク2 V, Balntas et al. HPatches: A benchmark and evaluation of handcrafted and learned local descriptors. CVPR, 2017. タスク3 データセット J. Sun et al. LoFTR: Detector-Free Local Feature Matching with Transformers. CVPR, 2021. C. Tofl et al.Long-Term Visual Localization Revisited. T-PAMI, 2020.

14.

1. Homography estimation • ホモグラフィ変換 (平⾯の幾何的な変換) のパラメータを推定 • 変換した場合のコーナー位置の誤差 (AUC) で評価

15.

2. Relative post estimation • 屋内環境 (ScanNet) と屋外環境 (MegaDepth) で検証 • Pose error (rotation, translationの両者を考慮した指標) で⽐較

16.

2. Relative post estimation • マッチングの結果を可視化 • マッチングの失敗を⾚で表⽰ • 視点・照明の変化が⼤きい場合、テクスチャが少ない場合でも⾼精度 J. Sun et al. LoFTR: Detector-Free Local Feature Matching with Transformers. CVPR, 2021.

17.

3. Visual localization • カメラ姿勢 (6DoF) を3Dモデルに対して求めるタスク • 屋外データセット、屋内データセットで評価 • 時刻の変化、geometryの変化、テクスチャの乏しいシーンがデータセットには含まれる屋外データセット (day-night) 屋内データセット C. Tofl et al.Long-Term Visual Localization Revisited. T-PAMI, 2020. H. Taira et al. InLoc: Indoor visual localization with dense matching and view synthesis. CVPR, 2018.

18.

3. Visual localization • 閾値に対する正解率で⽐較 • SuperGlueと同等の性能 • Table 4の実験設定までは確認しきれず… (すみません) J. Sun et al. LoFTR: Detector-Free Local Feature Matching with Transformers. CVPR, 2021.

19.

4.提案⼿法の分析 • Ablation study & Attentionの可視化 J. Sun et al. LoFTR: Detector-Free Local Feature Matching with Transformers. CVPR, 2021.

20.

まとめ • Transformerを⽤いた密な画像マッチング⼿法の提案 • CNN + Transformer + Matching moduleにより実現 • SuperGlueを参考にしたアーキテクチャ • 複数の実験で、提案⼿法の有効性を確認 • 次のような難しいシチュエーションで従来⼿法より⾼性能 • ⼤きな視点変化 • テクスチャの乏しい画像 • ⼤きな照明条件の変化 • 疑問：実⽤性はあるか • モデルを⼩さくした実装で104msの時間が必要

21.

参考⽂献 • J. Sun et al. LoFTR: Detector-Free Local Feature Matching with Transformers. CVPR, 2021. • P.-E. Sarlin et al. SuperGlue: Learning Feature Matching with Graph Neural Networks. ECCV, 2020. • V, Balntas et al. HPatches: A benchmark and evaluation of handcrafted and learned local descriptors. CVPR, 2017. • C. Tofl et al.Long-Term Visual Localization Revisited. T-PAMI, 2020.