199 Views
December 28, 24
スライド概要
M2の谷山諒樹さんが論文「SeedFormer: Patch Seeds based Point Cloud Completion with Upsample Transformer」を担当しました。本論文では、3D点群の補完タスクにおいて、生成プロセスがglobal特徴に依存することで詳細情報が失われる問題に対し、Patch Seedsという新しい形状表現を提案しました。この表現は、局所的な特徴を保持しながら、全体の構造を忠実に再現することを可能にします。
さらに、点群のアップサンプリングに特化した「Upsample Transformer」を導入し、基準点と近傍点の関係をモデル化することで、より滑らかで詳細な補完を実現しました。実験では、ShapeNetやKITTIなどのベンチマークデータセットにおいて、従来手法を上回る精度を達成し、特に細部の復元能力において顕著な性能向上を報告しています。
立教大学大学院人工知能科学研究科における瀧雅人准教授が主催する研究室で2020年度からスタートしているまだ若い組織です。 最先端の深層学習について、高度化・説明性向上などをテーマに深く幅広く研究しています。 また医療や神経科学・物理学におけるデータ分析や、産業への社会実装にも携わっています。 研究室内のPaper Reading活動の記録として、研究室学生の発表資料を公開しています。 ご興味をお持ちの方は、HPをご確認ください。
SeedFormer: Patch Seeds based Point Cloud Completion with Upsample Transformer 論文要約
タイトル 論文概要 SeedFormer: Patch Seeds based Point Cloud Completion with Upsample Transformer Ø 課題 Ø 従来のglobal特徴を使用したPointの再構成は局所的な詳細表現が失わ れやすい Ø 従来のPointを独立に扱う手法は点同士の関連性を無視している Ø 提案手法 Ø 局所的情報を保持するPatch Seedsという中間表現を導入 Ø Transformerをベースに拡張したUpsample Transformerを用いて, 近傍点の空間的・意味的関係を統合 Ø 結果 Ø PCNデータセットやShapeNetなどの複数データセットでSOTAを達成 1 Ø 未学習データに対しても高い復元能力
研究背景: タイトル 従来手法 Ø 点群補完手法の一般的なアーキテクチャとしてEncoder-Decoder構造 Ø encoderからglobal特徴を抽出 Ø global特徴を使用しdecoderから点群生成 Ø generatorは点を独立に処理し点の関連性を無視して生成 Ø folding Ø MLPなどを用いた階層構造 PCN Architecture. 2
研究背景: タイトル 従来手法 Ø 現状のEncoderの課題 Ø pooling操作で詳細情報が失われる →微細な形状(曲面やエッジなど)の特徴が欠落 Ø そもそも部分的な点群から取得されたglobal特徴では全体の形状を 生成するのは無理がある →欠損部分の復元が不正確 Ø generatorの課題 Ø 点群全体の分布を考慮していない →点密度が変だったり形が歪んだりする Ø 各点が独立して処理される →局面がギザギザしたりエッジが途切れる input PCN GT 3
研究背景: タイトル 従来手法 Ø 現状のEncoderの課題 Patch Seeds Ø pooling操作で詳細情報が失われる →微細な形状(曲面やエッジなど)の特徴が欠落 Ø そもそも部分的な点群から取得されたglobal特徴では全体の形状を 生成するのは無理がある →欠損部分の復元が不正確 Upsample Transformer Ø generatorの課題 Ø 点群全体の分布を考慮していない →点密度が変だったり形が歪んだりする Ø 各点が独立して処理される →局面がギザギザしたりエッジが途切れる input PCN GT 4
提案手法: タイトル SeedFomer 要約 概形予測 1. Encoderで入力点群の情報を要約 • Set Abstraction LayerとPoint Transformerでパッチ中心座標𝑃! , パッチ特徴𝐹! を抽出 2. Seed Generatorで全体の構造を予測したシードポイント𝑆とシード特徴 𝐹を生成 3. シードポイントを活用し詳細な情報を復元 • upsample layerを階層的に適用し,徐々に点群を高密度化 5
提案手法: タイトルEncoder ØEncoder: Patch Seedを生成するために入力情報を効率よく正確に要約 Ø入力点群𝑃からパッチ中心座標𝑃! , パッチ 特徴𝐹! を生成 Øseed generatorでpatch seedsを生成す る前にEncoderに通すことでダウンサンプ リングしつつノイズも低減 𝑁×3 𝑁! ×3 𝑁! ×𝐶! ØSet Abstraction Layer Ø dawn samplingとgroupingで代表点と その近傍を含めた特徴の抽出 PT SA PT SA ØPoint Transformer Layer Ø パッチ間の関係や全体的な文脈情報を統 合するように特徴を更新 𝒫 𝒫" ℱ" 6
提案手法: タイトルEncoder ØSet Abstraction Layer: 点群をダウンサンプリングしながら局所的情報を抽出 Ø Farthest Point Sampling(FPS) Ø ball queryによる近傍点選択 Ø PointNetによる近傍点特徴の集約 ØPoint Transformer Layer: SA層でサンプリングされた各点の特徴を近傍の点との関係や全体的な 文脈情報を考慮した形に更新 𝑦" = & #! ∈%(") 𝜌 𝛾 𝜑 𝑥" − 𝜓 𝑥( + 𝛿 ⨀ 𝛼 𝑥( + 𝛿 , 𝛿 = 𝜃(𝑝" − 𝑝( ), 7
提案手法: タイトル Seed Generator ØSeed Generator: 全体形状を大まかに表現する粗い点群(=Patch Seed)を生成 ØPatch Seedはglobal特徴では失われがちな localの情報を保持 Ø global特徴では難しかったlocal情報の復元が可能 Ø後続の層でpatch seedの特徴を基にアップサン プリング ØEncoderから出力された(𝑃!, 𝐹!)からUpsample Transformerで特徴を集約しSeed Feature F を生成 ØFからMLPで形状の骨格となる粗い点群Seed Points S を生成 8
提案手法: タイトル Seed Generator ℱ Ø(𝑃! , 𝐹! )からPatch Feature F を生成 (Patch Point: S=MLP(F)) 𝑋")!*+ = 𝑐𝑜𝑛𝑐𝑎𝑡 𝑃! , 𝐹! 𝑄 = 𝑀𝐿𝑃, 𝑋")!*+ , K = 𝑀𝐿𝑃- 𝑋")!*+ Q: 基準点の情報, K: 近傍点の情報 𝑉 = 𝑀𝐿𝑃. 𝑐𝑜𝑛𝑐𝑎𝑡 𝑄, 𝐾 として基準点と近傍点の相互関係をエンコード 位置エンコーディング 𝛿 = 𝜌 𝑝" − 𝑝( + 𝜃(𝑓" − 𝑓( ) 9
提案手法: タイトル Seed Generator ℱ 𝑋")!*+ = 𝑐𝑜𝑛𝑐𝑎𝑡 𝑃! , 𝐹! 𝑄 = 𝑀𝐿𝑃, 𝑋")!*+ , K = 𝑀𝐿𝑃- 𝑋")!*+ Q: 基準点の情報, K: 近傍点の情報 𝑎E"(/ = 𝛼/ (𝛽 𝑄" − 𝛾 𝐾( + 𝛿) QとKの差分を使用することで基準点と近傍点 の特徴がどのように異なっているのかを考慮 Øsoftmaxは点生成 において制限にな る 10
提案手法: タイトル Seed Generator ℱ 𝑋")!*+ = 𝑐𝑜𝑛𝑐𝑎𝑡 𝑃! , 𝐹! 𝑄 = 𝑀𝐿𝑃, 𝑋")!*+ , K = 𝑀𝐿𝑃- 𝑋")!*+ Q: 基準点の情報, K: 近傍点の情報 𝑎E"(/ = 𝛼/ (𝛽 𝑄" − 𝛾 𝐾( + 𝛿) QとKの差分を使用することで基準点と近傍点 の特徴がどのように異なっているのかを考慮 ℎ"/ = & (∈0(") 𝑎"(/ ∗ (𝜓 𝑣(1 + 𝛿) groupingで近傍点との関係を強化しつつMLP でアップサンプリング 11
提案手法: Coarse2Fine タイトル Generation ØGenerator : Patch Seedsを活用しUpsampling Layerで点群を段階的に復元 ØPatch Seedsの特徴をmapping Ømappingされた特徴をUpsample Transformerに入力しアップサン プリング 𝑠"1 = 𝑄 ∑(∈0" (") 𝑑L "( 𝑓( , ∑(∈0 (") 𝑑L "( " 1 𝑑"( 𝑑"( : ⼊⼒点群とpatch seedsの距離 12 𝑑L "( = 𝑠# 𝐾
提案手法: タイトル loss ØLossとしてChamfer Distanceを採用 Ø 赤枠のところで囲っている部分についてlossを計算し合算 ØChamfer Distance (CD) 𝐶𝐷 𝑋, 𝑌 = 1 1 ( min 𝑥 − 𝑦 + ( min 𝑥 − 𝑦 &∈' #∈% 𝑋 𝑌 #∈% &∈' 13
タイトル 実験・結果 Ø PCN dataset Ø ShapeNetの8つのカテゴリから構成されるサブセット Ø ShapeNetのデータを8つの視点から2.5D深度画像を生成しデータ を再構成することでLiDARなどから得られるデータを再現 Ø 他の手法と比べてシャープかつ背もたれなどの複雑な詳細情報も再現 14
タイトル 実験・結果 Ø ShapeNet-34 Ø ShapeNetからデータを欠損させたもの Ø 欠損の割合によってsimple, moderate, hardの三つの難易度 Ø 34のカテゴリとテストデータに21の新規カテゴリを含む Ø 未学習のobjectに対しても優れた汎化性能 15
タイトル 実験・結果 Ø KITTI dataset Ø 実世界のスキャンデータであるKITTIから3Dbbに基づきcar objectを抽出,そのデータについて性能評価 Ø GTを持たないためFidelityとMMDで評価 Ø PCNデータで事前学習したものをShapeNet-Carsでfinetuning Fidelity Distance: 1 𝐹𝐷 𝑋, 𝑌 = ( min 𝑥 − 𝑦 &∈' 𝑋 #∈% ⼊⼒(KITTIデータ)の近いと ころに出⼒があるかの指標 Minimal Matching Distance: 1. 全てのcarに対し出⼒点群 とのCDを計算 2. 最⼩のCDをMMDとする 16
タイトル 参考文献 SeedFormer: Patch Seeds based Point Cloud Completion with Upsample Transformer: https://arxiv.org/pdf/2207.10315v1 PCN: Point Completion Network: https://arxiv.org/pdf/1808.00671 PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space: https://arxiv.org/pdf/1706.02413 Point Transformer:https://arxiv.org/pdf/2012.09164 GRNet: Gridding Residual Network for Dense Point Cloud Completion: https://arxiv.org/pdf/2006.03761 17