【DL輪読会】C-NERF: Representing Scene Changes as Directional Consistency Difference-based NeRF”

1.8K Views

July 19, 24

#C-NeRF #NeRF #3D物体検出 #変化点検出 #シーン変化

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 83.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 53.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 38.6K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 33.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 31K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “C-NERF: Representing Scene Changes as Directional Consistency Diﬀerence-based NeRF” 2024.07.18 Toshiharu Maeba, Matsuo-Iwasawa Lab (M1) http://deeplearning.jp/

http://deeplearning.jp/

書誌情報紹介論文タイトル C-NERF: Representing Scene Changes as Directional Consistency Diﬀerence-based NeRF 出典: Arxiv(2023.09) 著者: Rui Huang1 Binbin Jiang1 Qingyi Zhao1 William Wang Yuxiang Zhang1 Qing Guo2,3, 1 College of Computer Science and Technology, Civil Aviation University of China, China 2 IHPC, Agency for Science, Technology and Research, Singapore 3 CFAR, Agency for Science, Technology and Research, Singapore 概要 • NeRFを⽤いて、シーン内の任意の視点からオブジェクトの変化を検出 • ２次元の変化点検出でSOTAを達成 ※画像は出典記載のないものは、本論文から引用 2

https://arxiv.org/abs/2312.02751

⽬次 • 概要 • 前提・関連研究 • C-NeRFの⼿法 • 実験結果 • 議論 • まとめ・感想 3

C-NeRFの概要 l オブジェクトの変更前と変更後のマルチビュー画像から、シーンの3D変更の表現を構築することを目指すもの l C-NeRFは、任意に指定した視点に基づいたチェンジマップを生成 l リモートセンシング、監視、ロボットナビゲーションなど様々なアプリケーションで需要がある 4

背景２Dベースの変化点検出 l 2D 変更検出には、画像の位置合わせ、大量の変更画像ペアでの学習が必要。 l また、入力画像の視点でのみしか変更マップを生成できない。さまざまな視点で変更マップを取得するのは、困難 l 変化するオブジェクトの3D形状がわからないため、適用先が大幅に制限３Dベースの変化点検出 l 多くの手法では、変更の前後にマルチビュー画像と、カメラの位置合わせが必要点群、メッシュ、ボクセルなど l 3次元ベースの手法として、NeRFを使用し、変更の前後にマルチビュー画像のみで実行可能な手法を提案 5

関連研究：NeRF l Neural Radiance Field (NeRF) ：ディープニューラルネットワークを使用して、対応するビュー方向に基づいて3D シーンの新しいビューを生成する3Dシーン表現技術。 l 三次元空間のある点の位置と視線方向（角度）から、その点の密度（density）と色をNNで学習 l カメラレイから定まる空間の各点の位置と視線の方向をクエリにして、古典的なレンダリング手法（volume rendering）を用いて、視点に対応する画像をレンダリング Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik,Jonathan T. Barron, Ravi Ramamoorthi, and Ren Ng. Nerf:Representing scenes as neural radiance fields for view synthesis. In ECCV, 2020. DL輪読会 2020年3月27日 https://deeplearning.jp/nerf-representing-scenes-as-neural-radiance-fields-for-view-synthesis/ 6

https://deeplearning.jp/nerf-representing-scenes-as-neural-radiance-fields-for-view-synthesis/

基本的なアイディア l (1)のNeRFで、座標と視点方向から、変化点のインジケーターを出力するようΨを学習させる l つまり、(1)のNeRFの変化点検出を２つの画像セット（変化前、変化後に相当）でそれぞれ学習(2) l 座標と視点方向を入力とし、それぞれのモデルの色と密度を得る(3) l ２つの差分のL1ノルムを算出(4) l 閾値を超える場合に、インジケーターを１として、変化点を検出(5) 座標視線方向インジケーター 7

基本的なアイディア l 変更前と変更後の3Dシーンの2つのNeRFが同一座標にない l NeRFモデルの空間的な位置と視線方向が同じであっても、生成された画像は位置合わせされておらず、多くの誤検出が発生 8

提案⼿法：C-NeRFのフレーム 1. NeRFの空間的な向きをそろえる 2. 変更点の検出（direction-consistent change point detection） 3. チェンジマップのレンダリング 9

10.

C-NeRFのフレーム① Spatial Alignment of NeRFs • SfMにより、視点セットDを同じ座標系に配置 →NeRFの空間的な向きがそろう • 異なるタイムスタンプの2つのNeRFモデルは、同じ座標系のため、偽の変更が大幅に排除 • しかし、環境の変化やレンダリング品質による偽の変更は排除しきれていない 10

11.

C-NeRFのフレーム② direction-consistent change point detection • 実際の変化点の表現は常に高いL1ノルムを持ち、視点が異なっても、一貫したvcまたはvσ • 対照的に、偽の変化点の表現は、いくつかの視点でのみ高いL1ノルム 11

12.

C-NeRFのフレーム② direction-consistent change point detection l 点 x と q 番目の視線方向 dq から、カメラの中心から点 x まで射出される光線 rq を得る l 視点方向dqと、光線rqに関して点ｘの近傍の点xiで、それぞれ２つのNeRFモデルから色と密度を推定 12

13.

C-NeRFのフレーム② 視点⽅向のサンプリング ❶目的のポイントxは、選択した視点から見ることができる ❷できるだけ多くのビューを含める必要前向きのシーンサラウンドシーン対象に応じて、２つのサンプリング戦略を採用 13

14.

C-NeRFのフレーム③ 視点dから得られたピクセルpの変更点マップ C（バイナリ値） 14

15.

実験：データセットNeRFCD l 変更前と変更後の 2 つのショットの動きの軌跡は、できるだけ類似させ10種類のデータを作成 l 学習にはそれぞれの種類について、120ペアの画像を、テストには10ペアの画像を使用 8つの前向きのシーン (囲碁駒、壁画、カード、テキスト、ポッティング、机、彫刻、机) シーン毎にジグザグ軌道で 20 枚の画像を撮影 2つのサラウンドシーン(猫とブロック) シーン毎に、高、中、低の３つの円軌道について、それぞれ40-60枚の画像を撮影 15

16.

実験結果：Instance change detection l Instance change detectionでCYWS-3DとC-NeRFのmean average precisionを比較 l ４つのタスクの全てでC-NeRFの方が良いスコア赤い四角は推論、青い四角は正解 CYWS-3Dは後段の細かい変化の検出はできないと想定されるため、instance change detectionで比較 16

17.

実験結果（定量評価）：細かい変化の検出 l ６つの既存手法とDifference（P.7の基本的なアイディアの手法）、C-NeRFの比較 l ピクセルレベルの変化点検出について、適合率 (P), 再現率(R), F1スコア(F1), Intersection over Union (IoU)の全てのスコアで、全てのモデルに対して優位 17

18.

実験結果（定性評価）：細かい変化の検出 18

19.

議論①シーン毎のC-NeRFの性能 l 一部の対象でスコアが低い l NeRF のレンダリング品質が原因である可能性 l レンダリング品質が低いと、変更領域の境界がぼやけ、変更の領域が減少 19

20.

議論②実⾏時間 l 186 の画像ペアを使用して NeRF モデルをトレーニング l 120 の変更マップをレンダリング提案手法ではなく、NeRFの実行時間に大きく依存画像サイズ：1008 756 実験はNvidia RTX3090Tiで実施 20

21.

議論③C-NERFの⻑所・短所長所 ①高精度なカメラポーズや画像位置合わせが不要のため、利用しやすい ②従来の2D変化検出のパイプラインを破り、新しい変化検出フレームワークを導入 ③一方向の視線方向の変化しか特定しない2次元変化検出とは異なり、任意の指定視方向で変化マップを合成することが可能短所（制限） ❶ リモートセンシングやストリートビューなどの大きなシーンは、本論文では考慮していないため、さらなる研究が必要 ❷ C-NeRFは、特定の領域の変化を扱えない、長い学習時間を要するという性質 →C-NERFの性能はNeRFの影響を大きく受けるため、別のNeRFモデルの使用により性能向上が見込める 21

22.

まとめ・考察まとめ • ３次元ベースの物体検出⼿法C-NeRFを提案 • 新たなデータセットを構築し、C-NeRFの性能（SOTA）を確認考察・感想 • データセットの撮影⽅向の選び⽅が重要だと思われるので、ここがどれほどの柔軟性を持っているのか • 実験室の外での適⽤性 – ストリートビューは対象外とのことだが、どれほどの制限になるのか 22