181 Views
August 09, 22
スライド概要
2022/8/5
Deep Learning JP
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP “PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmentation [DL Papers] (CVPR 2022)” Yoshifumi Seki http://deeplearning.jp/
書誌情報 ● 投稿先 ○ CVPR 2022 ● 投稿者 ○ 後で ● 選定理由 ○ 最近画像認識周りを転職先の仕事も あって勉強し始めていて Panoptic Segmentation周りを今掘っていたとこ ろだった ○
● 深さの推定とPanoptic Segmentationを同時にやることで全体のパフォーマンス向 上を狙う。
フレームワークの全体像
フレームワークは3つのsub-networkからなる ● Kernel Producer ○ ● Panoptic Segmentation ○ ● instance classification, instance-specific mask, depth convolution kernelを生み出すところ Panoptic Segmentationをやるところ Instance-wise depth map generator ○ インスタンスごとの深さ推定をやるところ
Kernel Producer ● PanopticFCNで作られている ○ ● Panoptic SegmentationのSOTA (CVPR2021) Dynamic Convolution Techniqueを採用 ○ 訓練時間もGPUのメモリも他の新しいモデルと比較して少なく抑えられる
● Kernel Weight Map Gとtwo position mapをthingsとstuffそれぞれで出力する ○ ● thingsはinstanceのcenter, stuffはregionにそれぞれ対応する 出力したこの2つをKernel FusionによりマージしてInstance Classification, Mask Kernel, Depth Kernelを生成する ○ ここのfusion方法は具体的な記述がない
Panoptic Segmentation ここもPanopticFCNのまま
PanopticFCN (再掲)
Instance-wise Depth Estimation ● ● Depth Kernelをdepth Embeddingに適用して、 instanceごとのdepth mapを生成 する Panoptic Segmentationを用い てそれぞれのmapを統合する
Depth Map Generator ● ● depth Kernelとdepth Embeddingによってdepth mapを生成 各instance maskにおいて、depthの分布を正規化する ○ ○ ○ ● ● dmaxは今回の実験データセットでは 88にこてい d_r: depth range: N+1次元 d_s: depth shift: N+1次元 ニュアンスとしては、depthのbiasとvarianceを表現している このように生成したDとMを掛け合わせて統合
Depth Loss ● logarithmic errorとRSEの組み合わせ ● Pixel LevelのLossとInstance LevelのLossを組み合わせる
実装上の工夫 ● Adaptive Kernel Fusion (AKS) ○ ● Kernel Fusionのタイミングにおける Average Clusterの改良 Full Scale Fine Tuning (FSFT) ○ ○ ○ 距離が離れたインスタンス同士が融合してしまうことを発見 ■ image cloppingによっておこる 類似の問題が怒っている他の研究では、 original imageで訓練することで対応するが、 GPUメモリ をめちゃめちゃに使ってしまう Fine tuningの時のみFull Imageを使ったfine-tuningを小さなbatch sizeで行うことで、この問題に対 応
評価指標 Panoptic Quality Depth-awareなPanoptic Quality λはしきい値、Pλはλよりerrorが小さいピクセルのみを考慮する λの値を{0.1, 0.25, 0.5}でそれぞれ計算した時の平均を取る
Experience: Panoptic Segmentation
● ● ViP-DeepLabは現在公開されている唯一のDepth-awareなPanoptic Segmentationなモデル 精度は及ばなかったが、Vip-DeepLabは大規模な追加データセット、半教師、 AutoAug, Test-time segmentationというテクニックが採用されている ○ こういうのを採用すれば伸びるのでは?
Monocular Depth Estimation ● ● ● シンプルな単眼画像による深さ 推定では、提案手法が最も良い 結果となった 深さを推定するのにinstan
Ablation Study ● ● ● A vs Bはあまり変化がない C vs Dも同じぐらい、AとBに比べると改善 E vs FではFがよく、Eが悪化している ○ T2が改善していて、 T1が悪化するのは、 ground truthのdepthがnoisyなことに起因すると予想
まとめ ● ● おそらく単眼深度における精度向上が工夫されての採択? 数式が省略されているところが多くて追い辛い ○ ○ ○ ● ● 特にkernelの部分、これで通すのかぁというカルチャーショック 実装は公開されている arxivにappendixとかあるのかな、と思ったけどなかった 精度の改善ポイントとしては局所的なnormalizedが一番効いているのは面白い Boundaryがなめらかになってるでしょ?と言われてもよくわからなかった ○ 画像処理に精通するとわかるようになるのか