【DL輪読会】LightGlue: Local Feature Matching at Light Speed

35.2K Views

October 13, 23

#Deep Learning #LightGlue #Feature Matching #Machine Learning #Computer Vision

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 49.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 46.9K

各ページのテキスト

DEEP LEARNING JP [DL Papers] LightGlue: Local Feature Matching at Light Speed Takeru Oba, Ukita Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル：LightGlue: Local Feature Matching at Light Speed 著者：Philipp Lindenberger, Paul-Edouard Sarlin, Marc Pollefeys 会議：ICCV 2023 2

概要タスク：Feature Matching （特徴点は他の手法で与えられていて，解くのはマッチングの部分）応用例：カメラ位置の特定マッピング従来法：GNNによりマッチング問題：計算コスト学習が難しい 3

概要提案手法の特徴： • 早い!! • 難しさに応じてネットワークが自動的に計算コストを調整(adaptive) • 精度も従来手法に劣らない 4

関連研究（SuperGlue) Glue → のり，接着剤 SuperGlue（ざっくり）：従来：MSEなどによるマッチング問題： • 角度による見え方の変化 • 遮蔽などによる対応点の消失解決法（SuperGlue) • GNN(Transformer）の利用 • 周辺の特徴点を考慮することで見え方の変化に頑健 • 二つの画像を同時に考慮することで対応点がないoutlierを除去 5

SuperGlueとLightGlueの関係 Glue → のり，接着剤 SuperGlueの問題点： • 初期のTransformerベースなため計算コストが大きい • 学習も難しい LightGlueへ： • Transformerの効率化 – rotary encoding – bidirectional attention • 動的にモデルの深さと幅を変える – 確信度に応じて特徴点を破棄 – ネットワークの深さも全体の確信度に応じて変更この部分を高速化 6

提案手法全体のネットワーク図：位置(x,y) 確信度特徴量手順： 1: selfとcrossのattentionにより特徴量を更新． 2: 更新された特徴量を使ってmatchabilityの計算 3: 確信度(confidence)は高いがどの点ともマッチしなかった点は削除．（計算コスト削減のため） 4: 全点の確信度の平均が閾値を超えてなければ次のlayerに進む（繰り返し） 7

提案手法(attention部分） Self-Attention 工夫：rotary encodingの採用 query 相対位置 key Positional encodingの一種で相対位置に基づいてkeyを回転させることでencode (詳しくはRoFormer: Enhanced Transformer with Rotary Position Embedding） Valueは特徴量(d)から計算する大事な部分：相対位置はどのlayerでも変わらないので一度だけ計算すればいい 8

提案手法(attention部分） Cross-Attention 工夫：bidirectional attentionの採用通常はqueryとkeyの内積を計算するその場合画像A->BへのAttentionの画像B->AへのAttentionと二度計算する大事な部分： Bidirectional Attentionでは Keyのみで計算することで一度の計算だけで済む 9

10.

提案手法(マッチングの計算）マッチングの計算手順画像Aの点iと画像Bの点jのスコアを計算特徴量特徴量その後，他のペアと比べてどれだけスコアが高いかを評価最終スコア iの点が画像Aの他の点と比べてどれだけjとマッチしてるか点iにマッチングする点がある確率（なければ０） 10

11.

提案手法（マッチング部分の損失）注:confidenceの部分は後から学習する部分なので先にマッチングの部分の損失を紹介対応する点の確率（スコア）を上げる対応点ない部分の損失 11

12.

提案手法(Confidince） Confidence：この論文ではconfidenceが高い場合は後段のレイヤーとマッチング結果が変わらないことを示す予測方法は以下学習方法：マッチングの部分を事前に学習．その後，最終レイヤーのマッチング結果とその他のレイヤーの結果を比較．一致している点は1，不一致の場合は0になるようにMLPを最適化 12

13.

提案手法(Confidinceによる高速化） Pruning： Confidenceが閾値以上であるのにマッチする点がなかった場合はその点を削除するネットワークの深さの自動調整： Confidenceの平均値が一定以上になった段階でマッチングの計算を終了 13

14.

実験結果 14

15.

実験結果重要な点 • 計算コストはSuperGlueと比べても半分程度で精度もほぼ同じ • Adaptiveにすることで更に計算コストを削減 Keypoint:2048点 15

16.

実験結果（ablation） Matchability（𝜎）はprecisionを向上 bidirectional attentionは計算コストへの影響が大きい Keypoint:512点 16

17.

実験結果（学習速度）学習にかかる時間 LightGlue（2日） SuperGlue（7日） 17

18.

まとめ LightGlueは以下の工夫により従来手法と比べて高速化した • rotary encoding • bidirectional attention • Confidenceによる難易度に応じたネットワークの深さと幅の調整実験において，SuperGlueなどの従来手法と比べて精度が落ちず，速度を大幅に向上できることを実証している． 18