1.3K Views
July 19, 24
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] “C-NERF: Representing Scene Changes as Directional Consistency Difference-based NeRF” 2024.07.18 Toshiharu Maeba, Matsuo-Iwasawa Lab (M1) http://deeplearning.jp/
書誌情報 紹介論文 タイトル C-NERF: Representing Scene Changes as Directional Consistency Difference-based NeRF 出典: Arxiv(2023.09) 著者: Rui Huang1 Binbin Jiang1 Qingyi Zhao1 William Wang Yuxiang Zhang1 Qing Guo2,3, 1 College of Computer Science and Technology, Civil Aviation University of China, China 2 IHPC, Agency for Science, Technology and Research, Singapore 3 CFAR, Agency for Science, Technology and Research, Singapore 概要 • NeRFを⽤いて、シーン内の任意の視点からオブジェクトの変化を検出 • 2次元の変化点検出でSOTAを達成 ※画像は出典記載のないものは、本論文から引用 2
⽬次 • 概要 • 前提・関連研究 • C-NeRFの⼿法 • 実験結果 • 議論 • まとめ・感想 3
C-NeRFの概要 l オブジェクトの変更前と変更後のマルチビュー画像から、シーンの3D変更の表現を構築することを目指すもの l C-NeRFは、任意に指定した視点に基づいたチェンジマップを生成 l リモートセンシング、監視、ロボットナビゲーションなど様々なアプリケーションで需要がある 4
背景 2Dベースの変化点検出 l 2D 変更検出には、画像の位置合わせ、大量の変更画像ペアでの学習が必要。 l また、入力画像の視点でのみしか変更マップを生成できない。さまざまな視点で変更マップを取得するのは、困難 l 変化するオブジェクトの3D形状がわからないため、適用先が大幅に制限 3Dベースの変化点検出 l 多くの手法では、変更の前後にマルチビュー画像と、カメラの位置合わせが必要 点群、メッシュ、ボクセルなど l 3次元ベースの手法として、NeRFを使用し、変更の前後にマルチビュー画像のみで実行可能な手法を提案 5
関連研究:NeRF l Neural Radiance Field (NeRF) :ディープニューラルネットワークを使用して、対応するビュー方向に基づいて3D シーンの新しいビューを生成する3Dシーン表現技術。 l 三次元空間のある点の位置と視線方向(角度)から、その点の密度(density)と色をNNで学習 l カメラレイから定まる空間の各点の位置と視線の方向をクエリにして、古典的なレンダリング手法 (volume rendering)を用いて、視点に対応する画像をレンダリング Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik,Jonathan T. Barron, Ravi Ramamoorthi, and Ren Ng. Nerf:Representing scenes as neural radiance fields for view synthesis. In ECCV, 2020. DL輪読会 2020年3月27日 https://deeplearning.jp/nerf-representing-scenes-as-neural-radiance-fields-for-view-synthesis/ 6
基本的なアイディア l (1)のNeRFで、座標と視点方向から、変化点のインジケーターを出力するようΨを学習させる l つまり、(1)のNeRFの変化点検出を2つの画像セット(変化前、変化後に相当)でそれぞれ学習(2) l 座標と視点方向を入力とし、それぞれのモデルの色と密度を得る(3) l 2つの差分のL1ノルムを算出(4) l 閾値を超える場合に、インジケーターを1として、変化点を検出(5) 座標 視線方向 インジケーター 7
基本的なアイディア l 変更前と変更後の3Dシーンの2つのNeRFが同一座標にない l NeRFモデルの空間的な位置と視線方向が同じであっても、生成さ れた画像は位置合わせされておらず、多くの誤検出が発生 8
提案⼿法:C-NeRFのフレーム 1. NeRFの空間的な向きをそろえる 2. 変更点の検出(direction-consistent change point detection) 3. チェンジマップのレンダリング 9
C-NeRFのフレーム① Spatial Alignment of NeRFs • SfMにより、視点セットDを同じ座標系に配置 →NeRFの空間的な向きがそろう • 異なるタイムスタンプの2つのNeRFモデルは、同じ 座標系のため、偽の変更が大幅に排除 • しかし、環境の変化やレンダリング品質による偽の 変更は排除しきれていない 10
C-NeRFのフレーム② direction-consistent change point detection • 実際の変化点の表現は常に高いL1ノルムを持ち、視点が異なっても、 一貫したvcまたはvσ • 対照的に、偽の変化点の表現は、いくつかの視点でのみ高いL1ノルム 11
C-NeRFのフレーム② direction-consistent change point detection l 点 x と q 番目の視線方向 dq から、カメラの中心から点 x まで射出される光線 rq を得る l 視点方向dqと、光線rqに関して点xの近傍の点xiで、それぞれ2つのNeRFモデルから色と密度 を推定 12
C-NeRFのフレーム② 視点⽅向のサンプリング ❶目的のポイントxは、選択した視点から見ることができる ❷できるだけ多くのビューを含める必要 前向きのシーン サラウンドシーン 対象に応じて、2つのサンプリング戦略を採用 13
C-NeRFのフレーム③ 視点dから得られたピクセルpの変更点マップ C(バイナリ値) 14
実験:データセットNeRFCD l 変更前と変更後の 2 つのショットの動きの軌跡は、できるだけ類似させ10種類のデータを作成 l 学習にはそれぞれの種類について、120ペアの画像を、テストには10ペアの画像を使用 8つの前向きのシーン (囲碁駒、壁画、カード、テキスト、ポッティング、机、彫刻、机) シーン毎にジグザグ軌道で 20 枚の画像を撮影 2つのサラウンドシーン(猫とブロック) シーン毎に、高、中、低の3つの円軌道について、 それぞれ40-60枚の画像を撮影 15
実験結果:Instance change detection l Instance change detectionでCYWS-3DとC-NeRFのmean average precisionを比較 l 4つのタスクの全てでC-NeRFの方が良いスコア 赤い四角は推論、青い四角は正解 CYWS-3Dは後段の細かい変化の 検出はできないと想定されるた め、instance change detectionで 比較 16
実験結果(定量評価):細かい変化の検出 l 6つの既存手法とDifference(P.7の基本的なアイディアの手法)、C-NeRFの比較 l ピクセルレベルの変化点検出について、適合率 (P), 再現率(R), F1スコア(F1), Intersection over Union (IoU)の全てのスコアで、全てのモデルに対して優位 17
実験結果(定性評価):細かい変化の検出 18
議論①シーン毎のC-NeRFの性能 l 一部の対象でスコアが低い l NeRF のレンダリング品質が原因である可能性 l レンダリング品質が低いと、変更領域の境界がぼやけ、変更の領域が減少 19
議論②実⾏時間 l 186 の画像ペアを使用して NeRF モデルをトレーニング l 120 の変更マップをレンダリング 提案手法ではなく、NeRFの実行時間に大きく依存 画像サイズ:1008 756 実験はNvidia RTX3090Tiで実施 20
議論③C-NERFの⻑所・短所 長所 ①高精度なカメラポーズや画像位置合わせが不要のため、利用しやすい ②従来の2D変化検出のパイプラインを破り、新しい変化検出フレームワークを導入 ③一方向の視線方向の変化しか特定しない2次元変化検出とは異なり、任意の指定視方向で変化マッ プを合成することが可能 短所(制限) ❶ リモートセンシングやストリートビューなどの大きなシーンは、本論文では考慮していないた め、さらなる研究が必要 ❷ C-NeRFは、特定の領域の変化を扱えない、長い学習時間を要するという性質 →C-NERFの性能はNeRFの影響を大きく受けるため、別のNeRFモデルの使用により性能向上が 見込める 21
まとめ・考察 まとめ • 3次元ベースの物体検出⼿法C-NeRFを提案 • 新たなデータセットを構築し、C-NeRFの性能(SOTA)を確認 考察・感想 • データセットの撮影⽅向の選び⽅が重要だと思われるので、ここがど れほどの柔軟性を持っているのか • 実験室の外での適⽤性 – ストリートビューは対象外とのことだが、どれほどの制限になるのか 22