【DL輪読会】RoMa: Robust Dense Feature Matching

10.2K Views

May 16, 24

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] RoMa: Robust Dense Feature Matching Presenter: Yuki Kondo 2024.5.16 (Toyota Motor Corporation, Frontier Research Center) http://deeplearning.jp/ Yuki Kondo @ TOYOTA, Frontier Research Center 1

2.

Section 1.書誌情報・概要 2.先行研究 3.提案手法 4.実験結果 5.結論・所感 2

3.

Section 1.書誌情報・概要 2.先行研究 3.提案手法 4.実験結果 5.結論・所感 3

4.

書誌情報 • 論文名 RoMa: Robust Dense Feature Matching [CVPR’24] • 著者 Johan Edstedt1, Qiyu Sun2, Georg Bökman3, Mårten Wadenbäck1, Michael Felsberg1 1Linköping University 2East China University of Science and Technology 3Chalmers University of Technology • URL 論文:https://arxiv.org/abs/2305.15404 プロジェクトページ:https://parskatt.github.io/RoMa/ ※出典が明記されていない図表は当論文および上記URL先より引用 4

5.

論文概要 RoMa: ロバストな密な特徴点マッチングを実現. • DINOv2の大域特徴量とCNNの局所特徴量で 構成されるロバストな特徴量ピラミッド • Transformerベースのデコーダ • ロバスト損失関数 ⇒ SoTAを達成. 5

6.

Section 1.書誌情報・概要 2.先行研究 3.提案手法 4.実験結果 5.結論・所感 6

7.

特徴点マッチングの変遷 RoMa (提案手法) Key-point 検出あり Key-point 検出なし 疎なマッチング SuperPoint [D. DeTone+ CVPRW’18] 密なマッチング LoFTR [J. Sun+ CVPR’21] DKM [J. Edstedt+ CVPR’23] に焦点を当てている. Time 7

8.

自己教師ありビジョンモデル Transformerベースの大規模言語モデルの成功 ⇒『自己教師あり学習』に基づく大規模データでの事前学習 Computer Vision での発展: DINO iBOT DINOv2 [M. Caron+ ICCV’21] [S. Zhu+ ICLR’22] [M. Oquab+ TMLR’24] 自己蒸留でMasked Image Modeling (MIM)を学習し,下流タスクに有効 なロバスト特徴量を獲得. 大規模なキュレーションデータを 構築するパイプライン提案により, より汎用的な特徴量を獲得. 自己教師あり学習のVision Transformer (ViT)が,教師あり学習 モデルより意味特徴を捉える. 8

9.

ロバスト損失の定式化 ロバスト回帰損失: • Inlier分布とOutlier分布間の連続的な遷移を提供. • オプティカルフローの正則化やロバスト平滑化のために利用 • そのまま損失関数としても利用される 分類による回帰定式化: • 回帰問題を,例えばBinningを介し,分類問題として扱う. • 境界付近や遮蔽で変化の激しいシーンのステレオ視差推定などで有効. 分類から回帰への最適化: • 分類問題として解き,その後回帰に基づいてRefinementを実施. • 階層的構造と親和性が高い. • Visual localizationや特徴点マッチングで利用 9

10.

Section 1.書誌情報・概要 2.先行研究 3.提案手法 4.実験結果 5.結論・所感 10

11.

提案手法 全体構成 • DKM [J. Edstedt+ CVPR’23] をベースラインとする. • 差分が提案部分. 11

12.

エンコーダ (1/2) • 特徴量抽出はそれぞれ独立に行う. • Coarse 特徴量 𝜑coarseはDINOv2, Fine 特徴量𝜑fineはConvNetで抽出. • ロバストで局所特定可能な特徴量の検討 (1/2) 1. 粗いマッチング: • 凍結モデル{DINOv2, VGG19, ResNet50}+線形層で, 粗い特徴点マッチング性能を,視差や照明変化のある データセットMegaDepth [Z. Li+ CVPR’18]で評価. • 評価指標: • Average End-Point-Error (EPE): 平均終点誤差 • Robustness: 誤差が32ピクセル以下の割合 • DINOv2は視差等に対し,ロバスト. • 粗いマッチングでは, VGGよりResNetの方が優れている. • DINOv2は凍結モデルとして利用. • 学習セットへの過学習抑制. • 学習時の計算量削減. • DINOv2の特徴量はストライド14の特徴量であり,EPEも27.1のため, 特徴点マッチングのより細かい調整が必要. 12

13.

エンコーダ (2/2) • ロバストで局所特定可能な特徴量の検討 (2/2) 2. 細かいマッチング: • Ablation study の結果より抜粋. • Fine特徴量抽出器は,それぞれで最適化(表2のII). • Fine特徴量抽出器として,VGG19とResNet50を比較 (表2のIIIのセットアップ) . • 細かいマッチングでは,VGGの方が優れている. ⇒ マッチングのための細かな局在性と粗いロバスト性は,固有のデザインが必要. • 𝐼𝐴 , 𝐼𝐵 毎に学習可能なVGG Fine特徴量抽出器を導入. 13

14.

デコーダ (1/3) • グローバルマッチャ― 𝐺𝜃 (1/2): :ワープマップ, :マッチエンコーダ(ガウス過程含む), :確信度マップ, :Transformer デコーダ • 分類による回帰定式化: • グローバルマッチャ―の離散化された出力空間を確率分布で定式化. :アンカーの推定確率, :分類アンカー数, :アンカーの代表座標 :ワープ元座標, :ワープ先座標, の2次元分布(一様分布)上の値 • Refinementのための分類推定結果の変換 14

15.

デコーダ (2/3) • グローバルマッチャ― 𝐺𝜃 (2/2): • Transformerデコーダの検討: • 予備実験より,粗いデコーダとしてのConvNetは,以下の特性があることを確認. • 解像度に過剰に適合する. • 局所性のRefinementには有効だが,粗いマッチングではワープに対し,過剰な平滑化をもたらす. ⇒ Positional encoding を除いた Transfromerデコーダを採用. 位置非依存の画像特徴量の類似度のみで伝搬するようになり,モデルの頑健性が著しく向上. • 5つのViT [A. Dosovitskiy+ ICLR’21] ブロックから構成. • 損失関数: • 粗いマッチングを分類問題として解くことで,マルチモーダルに対応. ⇒ シーン内の複数の物体の動作境界などぼやけに対し,頑健制を獲得し, マッチングの不連続性に対応可能. • マルチモーダルへの最適化のために,グローバルマッチャ―は 以下の損失関数で最適化 (第1項:ワープマップ項,第2項:確信度マップ項). 不連続でマルチモーダル 15

16.

デコーダ (3/3) • Refiner 𝑅𝜃 : • Refiner モジュール 仕様: • DKM と同様に,複数のConvNet( ストライド {2𝑖 | 𝑖 = 0, 1, 2, 3} ) で構成され,階層的に Refinement される. • 1階層前のワープと確信度の推定結果,特徴量ピラミッドの該当階層の特徴量を入力とする. • 1階層前のワープと確信度のオフセットを推定し, Refinement . • 損失関数: • Charbonnier 損失 [J. T. Borron CVPR’19] を,L2 損失の代わりに利用(右辺第1項). • 誤差が小さい場合,最適化はL2のようにふるまい, 誤差が大きい場合,L1のように勾配の大きさを抑制. • 合成損失関数 L1 のように 勾配の大きさを抑制 勾配が区分線形 ⇒ L2 のようにふるまう • CoarseとFineの勾配は,互いにカット ⇒ スケーリング不要. 16

17.

Section 1.書誌情報・概要 2.先行研究 3.提案手法 4.実験結果 5.結論・所感 17

18.

Ablation study • MegaDepth データセットで検証. • 提案手法の構成がすべて性能向上に寄与. 18

19.

定量評価 • 3タスク,6データセットで検証.いずれもSoTA達成. 特徴点マッチング カメラ姿勢推定 Visual Localization 19

20.

定性評価 • 提案手法はDKMよりも視点変化や照明変化に頑健. 20

21.

Section 1.書誌情報・概要 2.先行研究 3.提案手法 4.実験結果 5.結論・所感 21

22.

結論・所感 [ 結論 ] • DKMをベースとし,エンコーダ,デコーダ,損失関数の再検討を行い,包括的な実験で SoTAを達成. • 制限と今後の課題: • 教師あり学習を前提としており,十分な教師ありデータが必要. (RoMa ではパラメータ固定したDINOv2を,priorとして活用することで一定の対処を実現.) • Localizationや3D再構成など,幾何を考慮する様々なダウンストリームタスクでの応用検討. [ 所感 ] • 視差・照明条件変化がかなり激しいケースでも,頑健に動作するパフォーマンスは圧巻. • DINOv2をバックボーンとする手法が増加の傾向.今回のように,CNNの特性も考察し, ハイブリッドで利用する方針が今後の主流となる? • VGGとResNetの用途による逆転現象は興味深い.Residual接続がどう影響を与えているのか? • ピクセル単位の密な特徴点マッチングのため,様々な応用先が考えられる. 22