779 Views
January 16, 25
スライド概要
AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!
2024年度後期輪読会 #13 (2025/1/17) MaskFormer 京都大学理学部 B4 松田 拓巳 0
論文情報 下記論文をもとに解説を行う n タイトル Per-Pixel Classification is Not All You Need for Semantic Segmentation n 著者 Bowen Cheng1,2, Alex Schwing2, Alexander Kirillov1 (1: Facebook AI Research, 2: University of Illinois at Urbana-Champaign) n 学会 NeurIPS 2021採択論文 n 関連リンク Ø 論文 (https://proceedings.neurips.cc/paper̲files/paper/2021/hash/950a4152c2b4aa3ad78bdd6b366cc179-Abstract.html) Ø GitHubリポジトリ (https://github.com/facebookresearch/MaskFormer) Ø GitHub Pages (https://bowenc0221.github.io/maskformer/) 1
アジェンダ n 本研究のモチベーション n 提案手法:MaskFormer n 実験と評価 n 残された課題・Mask2Formerへ 2
セグメンテーションタスクの分類 セグメンテーションには3種類のタスクがある セマンティックセグメンテーション すべてのピクセルに対してクラスを推定 クラスが同じなら物体が異なっても同じラベル インスタンスセグメンテーション 物体検出+セグメンテーション 位置をbboxで予測+物体部分の領域予測 パノプティックセグメンテーション セマンティック+インスタンスセグメンテーション すべてのピクセルに対して物体IDとクラスを付与 画像引用:Panoptic Segmentation 3
従来のアプローチ:Per-pixel Classification(ピクセル単位分類)
セマンティックセグメンテーションでは、各ピクセルに対し属するカテゴリを分類するのが一般的
n Per-pixel Classification (ピクセル単位分類) とは
• 画像 (𝐻×𝑊) の全ピクセルについて𝐾クラス分類を行う
• ピクセルごとのCross Entropy Lossが通常用いられる
n 数式では
• 予測:𝑦 = 𝒑! 𝒑! ∈ 0,1 " %⋅'
!#$
•
真値:𝑦 () =
%⋅'
() ()
"
𝒚! 𝒚! ∈ {0,1} !#$
とすると損失関数は
%⋅' "
()
ℒ*+,-./0.1 𝑦, 𝑦 () = − 1 1 𝑦!
!#$ 2#$
2
log 𝑝! 2
4
ピクセル単位分類の問題点 しかし、従来のアプローチには下記のような問題点が存在する n 静的な出力数 ü インスタンスセグメンテーションのように可変数の領域に対応できない →セマンティックの場合とは異なるモデル構成にする必要がある n クラス数増加に対する性能低下 ü クラス数が増加すると、各ピクセルを正確に分類するのが困難になる n ピクセル単位の計算 ü 各ピクセルを独立に評価するため、領域の整合性やコンテキストを考慮しづらい n 複雑な設計の必要性 ü グローバルなコンテキストを捉えるために、ASPP*やPPM**などの複雑なモジュールが必要 * ASPP (Atrous Spatial Pyramid Pooling) : DeepLabで提案された、広範囲コンテキスト収集のためのモジュール。 **PPM (Pyramid Pooliing Module):PSPNetで提案された、広範囲コンテキスト収集のためのモジュール。 5
本手法のアプローチ:Mask Classification(マスク分類) マスクを予測し、各マスクにクラスを付与するアプローチ n Mask Classification (マスク分類) とは ü 各領域(セグメント)に対応するマスクを予測し、各マスクにクラスラベルを付与 ü 損失関数は下記の和となる • マスクのLoss (per-pixel binary mask loss) • 各マスクに割り当てられたクラスのLoss (per-mask classification loss) 6
マスク分類の優位性 ピクセル単位分類と比較して以下のような優位性がある n 可変的な出力数とインスタンスセグメンテーションへの適合 ü オブジェクトの数によらず対応可能で(もちろん上限は存在)、セマンティックでも インスタンスセグメンテーションでも適用可能 n クラス数増加に対する頑健性 ü 各マスクに対してクラスを割り当てるため、多クラスの場合でも精度の低下を抑えられる n 領域全体での推論 ü 各マスクに対してクラスを推論するため、領域全体のコンテキストを考慮した推論が可能 n よりシンプルな設計 ü Transformerでグローバルなコンテキストを捉えることができ、複雑なモジュールが不要 7
本研究の問い 本研究で明らかにしたい論点 n マスク分類モデルは、セマンティック・インスタンスセグメンテーションにおける効果的 なアプローチの全体像を簡略化できるか? n マスク分類モデルは、セマンティックセグメンテーションにおいて既存のピクセルごとの 分類手法を上回る性能を発揮することが可能か? 8
アジェンダ n 本研究のモチベーション n 提案手法:MaskFormer n 実験と評価 n 残された課題・Mask2Formerへ 9
MaskFormer:モデル概要 MaskFormerは、マスク分類に基づくセグメンテーションのためのモデルアーキテクチャ n 下記3つのモジュールから構成される • pixel-level module:画像からピクセルごとの特徴を抽出 • transformer module:画像全体の特徴を考慮し、セグメントごとの特徴を生成 • segmentation module:ピクセル/セグメントごとの特徴から、クラス確率とマスクを予測 10
MaskFormer詳細:ピクセルレベルモジュール ピクセルレベルモジュールは、画像からマスク生成に必要なピクセルごとの特徴を抽出する n pixel-level module ü backboneで特徴マップ ℱ を抽出 → transformer moduleで利用 … backboneは何でも良い (精度評価ではResNet, SwinTransformerを使用) ü pixel decoderで特徴マップを元の画像サイズに高解像度化 → マスク予測に利用 … FPN*をベースとしており、軽量 (従来のようにASPPやPPMなどの複雑なモジュールを使わなくていい) * FPN (Feature Pyramid Network) : 詳細はAppendixを参照 11
MaskFormer詳細:Transformerモジュール Transformerモジュールは、画像全体からセグメントごとの特徴を抽出する n transformer module ü DETR*と同じTransformer decoderを使用し、100クエリ・6層**とした ü クエリ埋め込みはゼロベクトルで初期化し、Positional Encoding (学習可能)を適用 * DETRは第11回輪読会で扱った。 **セマンティックセグメンテーションでは1層でも十分な精度を出せたが、インスタンスセグメンテーションでは1層だと重複が出てしまうため多層にする必要あり 12
MaskFormer詳細:セグメンテーションモジュール セグメンテーションモジュールは、セグメント特徴からクラスとマスクを同時に予測する n segmentation module ü transformer moduleで生成したセグメントごとのベクトルをもとに、下記を計算 • MLP(多層パーセプトロン)でマスク埋め込みℰ3452 を求める • 同様にMLP(多層パーセプトロン)でクラス予測結果を求める 13
MaskFormer詳細:損失関数と学習 MaskFormerは、シンプルな損失関数でEnd-to-Endに学習可能である n 損失関数 ü マスク損失にはfocal lossとdice lossの重みつき和(20:1)を使用 ü DETRと同様に、”no object”( ) に対する分類損失は0.1で固定 n マッチング ü 固定マッチング (予測マスク数=クラスラベルの数なら) …𝑖番目の予測領域はラベル𝑖の真領域とマッチングさせる(ラベル𝑖がない時は とマッチ) ü 二部マッチング ← こちらの方がセグメンテーション精度が良くなった …コストは上記のlossの値(Σの中)を用い、ハンガリアンアルゴリズム等でマッチ 14
アジェンダ n 本研究のモチベーション n 提案手法:MaskFormer n 実験と評価 n 残された課題・Mask2Formerへ 15
実験設定と評価指標 主にセマンティック/パノプティックセグメンテーションタスクで評価を行った n データセット ü セマンティック:ADE20K, COCO-Stuff, Cityscapes, Mapillary Vistas, ADE20K-Full ü パノプティック:COCO, ADE20K 16
実験設定と評価指標 実験結果に登場する評価指標の定義は以下のとおり セマンティックセグメンテーションにおける評価指標 n mIoU:全クラスのIoU(予測 正解) / (予測 正解)を平均したもの。 • mIoU (s.s.):通常の推論を行った場合のmIoU • mIoU (m.s.):複数のスケール*にリサイズして推論し、結果を統合して計算したmIoU * 0.5, 0.75, 1.0, 1.25, 1.5, 1.75倍 17
実験設定と評価指標 実験結果に登場する評価指標の定義は以下のとおり パノプティックセグメンテーションにおける評価指標 n RQ* Recognition Quatlity。クラス分類精度を評価する。 n SQ* Segmentation Quality。正解と予測の重なり具合を評価する。 n PQ Panoptic Quality。RQとSQの積で定義される。 • PQTh:数えられるクラス(車や人)についてのPQの値(Thing) • PQSt:数えられないクラス(空や道)についてのPQの値(Stuff) *詳細な定義はAppendixを参照 18
実験結果①:セマンティックセグメンテーション MaskFormerは既存のピクセル単位分類を凌駕する性能を示した セグメンテーションの精度 モデル サイズ 計算量 処理 速度 per-pixel mask per-pixel mask 19
実験結果②:パノプティックセグメンテーション パノプティックでも優れた性能を発揮し、単一モデルでのタスク統合が可能であることを示した セグメンテーションの精度 モデル サイズ 計算量 処理 速度 per-pixel mask 少ないパラメータ・計算量で 高精度を達成している 20
実験結果③:データセットによる優位性の違い クラス数が多い時にMaskFormerは優位性を発揮する 少 クラス数が多くない場合は 精度に差が出ない クラス数 多 クラス数が多いと優位になる 21
実験結果のまとめ MaskFormerは、正確性、効率性、汎用性において優れたセグメンテーションモデル n 正確性 マスク分類によるMaskFormerは、ピクセル単位分類の従来モデルよりも高精度を達成 n 効率性 従来よりも少ないパラメータ・計算量で高精度を達成可能 n 汎用性 同じモデル構成で、あらゆるセグメンテーションタスクに対処可能である 22
アジェンダ n 本研究のモチベーション n 提案手法:MaskFormer n 実験と評価 n 残された課題・Mask2Formerへ 23
課題と今後の展望 MaskFormerには、まだ改善の余地があり、今後の研究によってさらなる発展が期待される n 性能面 ü インスタンスセグメンテーションでは、SOTAモデルよりも性能が劣る ü 小さな物体のセグメンテーションが苦手な傾向にある n 学習の収束性 ü 汎用アーキテクチャなので、特定タスクに特化したモデルに比べて学習が進みづらい ü 学習に多くのエポック数を必要とし、収束が遅い n 計算リソース面 ü メモリ使用量が大きくなる傾向(マスク予測がネック) 24
Mask2Formerの概要 Mask2Formerは、MaskFormerの課題を解決し、より性能を向上させた発展版である ü masked attentionの導入 ü pixel decoderからマルチスケール特徴を得る ü 点ベースの損失計算 25
論文情報 Mask2Formerについて詳しくは各自論文を参照ください n タイトル Masked-attention Mask Transformer for Universal Image Segmentation n 著者 Bowen Cheng1,2, Ishan Misra1, Alexander G. Schwing2, Alexander Kirillov1, Rohit Girdhar1 (1: Facebook AI Research, 2: University of Illinois at Urbana-Champaign) n 学会 CVPR 2022採択論文 n 関連リンク Ø 論文 (https://openaccess.thecvf.com/content/CVPR2022/html/Cheng̲Masked-Attention̲Mask̲Transformer̲for̲Universal̲Image̲Segmentation̲CVPR̲2022̲paper.html) Ø GitHubリポジトリ (https://github.com/facebookresearch/Mask2Former) Ø GitHub Pages (https://bowenc0221.github.io/mask2former/) 26
Appendix 27
【Appendix】 FPN (Feature Pyramid Network) n ラテラル接続:スキップ接続の間に1 1畳込みをかませたver. 画像引用:https://cvml-expertguide.net/terms/dl/object-detection/fpn/,原論文:Feature Pyramid Networks for Object Detection 28
【Appendix】 Segmentation Quality、Recognition Qualityの定義 n Segmentation Quality 正解領域についてのIoUの和を正解領域数で n Recognition Quality F1スコアのような指標 割ったもの 参考論文:Kirillov, Alexander, et al. "Panoptic segmentation." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019. 29
【Appendix】
学習設定の詳細
n 最適化手法:AdamW
n 学習率スケジュール:poly …
=>?78
!678
1−
,
9:,_+)-<
n 初期学習率:バックボーンがResNet→10-4 、Swin-Transformer→6 10-5
n Weight Decay:バックボーンがResNet→10-4 、Swin-Transformer→10-2
n 学習率乗数:バックボーンがResNet→0.1 、Swin-Transformer→1.0
n データ拡張
• Random scale jittering:画像サイズをランダムに0.5倍〜2.0倍の範囲で拡大縮小
• Random horizontal flipping:画像をランダムに水平方向に反転させる
• Random cropping:画像からランダムな領域を切り取る
• Random color jittering:画像の明るさ、コントラスト、彩度、色相をランダムに変化
30