>100 Views
October 21, 22
スライド概要
2022/10/21
Deep Learning JP
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Learning Instance-Specific Adaptation for Cross-Domain Segmentation Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業) http://deeplearning.jp/ 1
書誌情報 • タイトル – Learning Instance-Specific Adaptation for Cross-Domain Segmentation • 著者 – Yuliang Zou1 Zizhao Zhang2 Chun-Liang Li2 Han Zhang3 Tomas Pfister2 Jia-Bin Huang4 – 1Virginia Tech 2Google Cloud AI 3Google Brain 4University of Maryland, College Park Training • ECCV2022に採択 • Paper – https://arxiv.org/abs/2203.16530 • Code – https://github.com/Yuliang-Zou/InstCal-Pano 2
論文概要 • シンプルなtest-time adaptation手法の提案 – 学習するBatchNorm calibration手法を提案(data-driven) • Test domainのサンプル毎に対応するcalibration手法(instance-specific)を提案 – Data augmentationを強めに行い、 calibrationを学習 – 提案手法は、 BatchNormがあるすべてのsegmentationモデルに適用可能 3
既往研究 • Domain adaptation (DA) – 学習時は、target domainにアクセルできるため、精度が良い – unsupervised domain adaptation (UDA)は、 target domainの教師ラベルを必要せず、 学習コストを削減 – One-shot UDAは、 一枚のtarget domainデータで学習可能 – 手法の流派: • 1) domain invariant learning, 2) generative models, 3) self-training – 課題: • off-line pre-trainingが必要 • target domain以外のdomainへ適用不可 4
既往研究 • Domain generalization (DG) – 学習時は、target domainにアクセルしない。source domainのみdomain invariant representationを学習 – Single domain generalizationは、一つsource domainのみから学習し、source domain を準備する作業を軽減 • 強めのdata augmentationでsource domainのバリエーションを増やす • feature whitening/normalizationでdomain-specific 特徴を除去 5
既往研究 • Test-time adaptation – test時、モデルパラメータを最適化(proxy task, pseudo-label, entropy regularizations) • test時に勾配計算するため、処理時間がかかる – BatchNorm calibration • BatchNormの統計値(running statistics)にはdomain-specific情報が含める • 既存手法は、batch毎の統計値を利用、 若しくはinput batchの統計値とpre-defined calibration rule を混合 • 提案手法は、 source domainからbatch毎のcalibration rule学習 6
背景 • BatchNorm – 学習を安定させ、収束を加速させる効果がある – 特徴マップ に対し、affine変換をかけて正規化 • where が学習するaffine変換のパラメータ ϵは学習を安定化させる定数 trainとtestにおけるµとσ2が異なる。Trainの際はbatch毎の統計値 test時は、trainの指数平滑移動平均量(population statistics)を使用 7
背景 • Manual BatchNorm calibration – testにおけるµとσ2 (population statistics)にdomain-specific情報が含まれている – testのinput batchの統計値を考慮することが有効 • where m = calibration strength。Grid searchで最適な値を特定できるが、新しいdomainに適用しな い。segmentationタスクでは、channelごとにsemantic情報がencodeされるため、channelごとに設 定する必要。µとσのstrengthは分けた方が良い 8
提案手法 • Learning to calibrate BatchNorm (InstCal-U) – calibration strengthを学習。 µとσのstrengthは独立するパラメータに – 学習済モデルに対し、 calibration strengthのみ学習(他のパラメータはfix) – data augmentationを加えて学習:RandAugment, AugMix, DeepAugment 9
提案手法 • Learning to conditionally calibrate BatchNorm (InstCal-C) – Testの際、学習されたcalibration strengthは固定のため、全てのtarget domainに対 応しきれない(柔軟性が不足)。オプションとして、 conditional calibrationを提案 – mµ,iとmσ,iのsetを学習:lightweightなMLPで推定 – calibration結果が入力データ次第 10
実験 - ablation study • Source domain: GTA5 • Target domain: Cityscapes • ネットワーク: DeepLabv2 model with a ResNet-101 backbone • Calibration strengthは、平均と分散毎で学習かつ、channel-wiseで学習 11
実験 - ablation study • Data augmentationの効果を確認。DeepAugmentが最も効果あり • BatchNormを適用しない場合、Data augmentationのみの効果が限定的 • mµ,iとmσ,iのiが8の時、性能が最も高い 12
実験 - test-time adaptation手法との比較 • • • • Source domain: GTA5, Cityscapes Target domain: Cityscapes, BDD100k, Mapillary, WildDash2 既存手法は、baselineより劣化する可能性も TENTは一部のデータセットで精度が良いが、計算時間が課題 13
実験 • 多くのDA, DG手法は、in-domainでの性能が低下することが課題 – 提案手法、in-domainでの性能を向上 • 提案手法は、testの画像毎の統計値で適応することの有効性を確認 • expected calibration error (ECE)で評価し、提案手法で学習したモデルの信頼性が高い • test-time optimizationと組合せすると、精度が更に向上 14
実験 - one-shot UDAと比較 • 概念上、one-shot UDAは提案手法と同様に、一枚のtargetから適応 • ただし、 one-shot UDAは学習に時間がかかるため、target domainのサン プル毎に適応するのが難しい 15
実験 - DGと比較 • SOTAのISW以外の手法に性能が高い • また、提案手法は、DGに適用できる – 更に性能を向上 16
実験 - Backbone network • ResNet系以外のbackboneでも提案手法の有効性を確認 17
実験 - panoptic segmentationで評価 • Cityscapesで学習したPanoptic-DeepLabを学習し、Foggy Cityscapesに推論 • 提案手法が、 panoptic segmentationでも有効 18
まとめ • test-time adaptation手法を提案 – BatchNormのパラメータをtest domainのデータに応じて調整(calibration)する手法を 提案 – 大量な実験を行い、提案手法の有効性を確認 • Future work – 現状は全てのBatchNorm layerに適用するが、最も重要なlayerを解明したい – 他のnormalization layerに適用(LayerNorm for Vision Transformers) 19