298 Views
March 26, 26
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] Seeing without Pixels: Perception from Camera Trajectories Koya Sakamoto, Matsuo Iwasawa Lab D1 http://deeplearning.jp/ 1
書誌情報 ➢ タイトル Seeing without Pixels: Perception from Camera Trajectories ➢ 著者 Zihui Xue, Kristen Grauman, Dima Damen, Andrew Zisserman, Tengda Han (Google DeepMind, The University of Texas at Austin) ➢ 会議 The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026 ➢ リンク ➢ ArXiv: https://arxiv.org/abs/2511.21681 ➢ Project page: https://sites.google.com/view/seeing-without-pixels ※このスライドの図表は元論文または参考文献から引用しています. 2
概要 Research Question: 画像情報なしの単なるカメラ軌道には動画内容を明らかにするほどの情報量があるのか? ➢ Contrastive Learningによってカメラ軌道encoderを学習 ➢ 複数のタスクで、このカメラ軌道特徴量が有用であることを実証 新しいモダリティとして、カメラ軌道の有用性を示唆する。 3
関連研究 主観動画(Jakob +, arxiv 2023) カメラポーズ計算 (Linfei+, ECCV 2024) 三次元再構成 (Jakob +, arxiv 2023) Jakob Engel, Kiran Somasundaram, Michael Goesele, Albert Sun, Alexander Gamino, Andrew Turner, Arjang Talattof, Arnie Yuan, Bilal Souti, Brighid Meredith, Project Aria: A New Tool for Egocentric Multi-Modal AI Research, arXiv:2308.13561 (Linfei+, ECCV 2024) Linfei Pan, Dániel Baráth, Marc Pollefeys, Johannes L. Schönberger, Global Structure-from-Motion Revisited, ECCV 2024 4
提案手法 Camera TrajectoryをContrastive Learningによって、textと同じ特徴量空間へ変換するEncoder (CamFormer)を学習する InfoNCE lossを採用。バッチ内のTextとtrajectoryがペアのものは positive、それ以外はnegativeとして、positive同士が近づき、 negative同士は離れ合うように学習 短いvideo clipでは視点がほぼ移動しない。 そこで、camera trajectoryについてはcontext windowを𝑤 (= 𝑤1 + 𝑤2 ) 拡張して特徴量を 計算する。 5
検証方法 CamFormerによるembddingの有用性を検証する ➢ Cross-modal Alignment ➢ Text retrievalを通して、そのtextに対応したcamera trajectoryを取得できのか ➢ Downstream Classification ➢ 人のactivity全体 (例: 調理)を捉えた軌道や、activityの一部 (例: カット、フルーツを洗う) のみの軌道を 分類できるのか<-この書き方だと、fineかcoarseかの分類に取られそう. ➢ 人の視点移動を通して、その人がその分野の初心者か専門家かなども判定 ➢ Temporal Analysis ➢ 行動の区間特定と繰り返し動作の認識 緑でハイライトされたデータを事前学習に使用 Cross-modal Alignment検証のためのデータ 6
実験結果: Downstream Classification ➢ カメラ軌道のみで行動分類が可能 ➢ 埋め込みで意味的クラスタが形成 ➢ 視覚なしでも行動の意味を捉える 7
実験結果: Cross-modal Alignment Physical Activityについて、Video入力のために計算コストがかなり高いEgoVLPv2よりも性能が大幅に高い ➢ Camera trajectoryは軽量な情報で有用 Procedual Activityについて、動画とカメラ軌道で学習したCamFormer が最も性能が高い ➢ 軌道単体でも有用だが、動画を補完する情報源としても有用 legsやfocusを記述したtextで高いスコア ➢ 視覚情報として現れないaction を理解するためにcamera trajectory が有用 8
実験結果: Robustness to Pose Estimator ➢ AriaでpretrainしたCamFormerは、どのPose Estimatorを用いて計算したカメラ軌道でも、pretrainなしより も性能が高い ➢ Keystep Rec.では、どのポーズ推定を用いたとしても同等の性能向上が見られた 9
実験結果: 他者視点動画 他者視点データDynPose-100KでCamFormerを 学習し、他者視点カメラ軌道で同様に評価。 Text Retrieval ➢ カメラ軌道と意味の対応は他者視点でも同 様に成立 ➢ VLMによる記述生成よりも高性能であり、 軌跡を直接解釈する方が有効 Scene Attribute ➢ 人の動きなどの物理的属性では高性能 10
実験結果: Temporal Context Length CamFormerに入力するCamera trajectoryのcontext長の適切な長さについて調べる。 ➢ 全体を通したaction やevent に関しては、より長いcontext長によって、スコアが高くなる ➢ 活動の一部を切り取ったようなtextとそのtrajectory について、 ➢ 切り取られた活動の前後のmotion も重要な情報源である ➢ ただし、context長が長すぎるとノイズとなる 11
実験結果: Temporal Analysis 同一action が複数回現れるようなカメラ軌跡について、CamFormer の最後のaverage pooling 前のoutput token 同士の関係を見る カメラ動画についてのDINOv3よりも、繰り返し動作を数えられるレベルの時間構造を捉えている。 12
実験結果: 定性結果 13
まとめ カメラ軌道からその意図を読み取ることは場合によっては可能であり、これは主観動画・他者視点動画の 両方において存在することが明らかになった。 これまで三次元再構成等にしか使われていなかったカメラ軌道は新しいモダリティとして可能性を秘めて いる。 14