175 Views
July 17, 20
スライド概要
2020/07/17
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
Self-supervised Video Object Segmentation 岩隈 啓悟 / Keigo Iwakuma
タイトル:Self-supervised Video Object Segmentation 著者:Fangrui Zhu, Li Zhang, Yanwei Fu, Guodong Guo, Weidi Xie 所属:Fudan University, University of Oxford, West Virginia University 論文:https://arxiv.org/abs/2006.12480 実装:https://github.com/fangruizhu/self_sup_semiVOS (coming soon...)
タイトル:Self-supervised Video Object Segmentation 目次: 今回 1. 2. 3. 4. 5. 6. 概要 タスク 関連研究 提案手法 結果 感想 前回 選定理由:前回(MAST, CVPR2020)よりさらに結果が良かったため
1.概要 著者が挙げている4つの貢献 1. よりシンプルで効率的な記憶機構を提案し、対象の追跡性能を改善 2. 逐次的に予測を修正する機構を提案し、オクルージョンに対応 3. VOSに適した自己教師あり学習表現を獲得(少量のデータで学習可) 4. VOSの自己教師あり学習手法のベンチマークを更新
2.タスク Trackingには大きく分けて2種類のタスクがある Visual Object Tracking(VOT): Video Object Segmentation(VOS): 動画内の対象の位置をバウンディングボックスで求める 動画内の対象の位置をピクセル単位のマスクで求める
2.タスク Video Object Segmentation (dense tracking) : 特にテスト時に最初のフレームのマスクが与えられる設定のものを ”Semi-supervised Video Object Segmentation (Semi-VOS)” と呼ぶ 代表的な枠組み1:Segmentation modelを作る 代表的な枠組み2:マスクを伝播させる
2.関連研究:propagation-based dense tracking Tracking emerges by colorizing videos (ECCV2018) 過去のフレームを参照して現在のフレームの色を予測するタスクを行うこと で 現在と過去のフレームの対応付け方法を学習する 正確にはLab空間でのLの値を用いたグレー画像から、各ピクセルのaとbの値を予測する ただし、aとbの値の予測はあらかじめab空間内で行ったクラスタリング結果(16個のクラスタを作成)への分類である
3.関連研究:propagation-based dense tracking MAST: A Memory-Augmented Self-Supervised Tracker (CVPR2020) Tracking emerges by colorizing videoからの改善点 1. タスクの変更 2. 記憶機構の追加 3. propagation方法の改善 前回 Tracking emerges by colorizing video
3.関連研究:propagation-based dense tracking MAST: A Memory-Augmented Self-Supervised Tracker (CVPR2020) 1.タスクの変更 グレー画像(Lab空間のL)⇒ カラー画像(Lab空間のabのクラスタに分類) Lab画像(Channel dropoutあり)⇒ Lab画像(各Channelの値を回帰) Lab空間を利用する目的は、各チャンネルごとに相関がなく DropoutがBottleneckとして機能するため 回帰の損失にはHuber Lossを使用 (分類にはCross Entropy Lossを使用していた)
3.関連研究:propagation-based dense tracking MAST: A Memory-Augmented Self-Supervised Tracker (CVPR2020) 2.記憶機構の追加 参照画像が連続したもののみだと画像内から見えなくなったときに復帰ができない ⇒ 参照画像を増やす 長期記憶として1, 5フレーム目、短期記憶として現在から-1, -3, -5フレーム目の 計5枚を参照画像として使用する
3.関連研究:propagation-based dense tracking MAST: A Memory-Augmented Self-Supervised Tracker (CVPR2020) 3.propagation方法の改善 各ピクセルの類似度を参照画像の全ピクセルと計算するのは負担が大きすぎる ⇒ coarse-to-fineな方法で領域を限定する coarse:各ピクセルが参照画像のどこに近いか中心位置(ROIの中心)を決める fine:その中心位置から一定の距離内(ROI内)にあるピクセルの類似度を計算する ROI中心を決めるための類似度 dilation ratio ROI中心
3.関連研究:momentum update Momentum Contrast for Unsupervised Visual Representation learning (CVPR2020) この論文で使用されているmomentum updateと呼ばれる手法を利用することで 学習時の特徴の一貫性が保たれるためより良い表現が得られる、物理メモリ負荷も軽減可能 Key側の特徴抽出器のパラメータ更新は誤差逆伝播 ではなく、以下のmomentum updateを利用
3.関連研究:prior Deep Image Prior (CVPR2018) ノイズ除去などの画像復元タスクを行う際に出力を方向づける制約をPriorと呼ぶ NNを用いた画像復元ではそのPriorはデータから学習されるものと考えられてきたが NNの構造自体がPriorの役割を持っているということを実験的に示した論文 ダウンサンプリングして左のようになる画像は 無数にあるが顔の構造を知っていれば右のような画像 になりそうと検討がつく この例では顔の構造がPriorとなっている
4.提案手法 貢献4 Self-supervised Video Object Segmentation 貢献2 貢献1 貢献3
4.提案手法:貢献1 Self-supervised Video Object Segmentation ROI Localizationを撤廃 ⇒ 各ピクセルをそのままROIの中心とする QueryとKeyで特徴抽出器を分ける:Key側の更新はmomentum updateを利用 特徴抽出器を分ける(momentum updateの利用) ROIの中心は各ピクセルの位置をそのまま利用 PropagationはそのままROI内の類似度との加重平均 Huber lossを使用
4.提案手法:貢献2 Self-supervised Video Object Segmentation propagation basedな手法では時空間的な連続性を持ったピクセル単位の輝度の一致しか 考慮していないため一度オクルージョンなどが起きると復帰が難しい ⇒ 外見を考慮したモデルを新たに加え、その出力を最終的な予測とする 200 iters from scratch Propagation masksとU-Net出力の評価 Ground TruthとU-Net出力の評価 Deep Image Priorの利用 propagation masks (pseudo groundtruth) 最終的な予測 pixel-wise cross entropy lossとDice lossを使用
5.結果 実験の設定: Backbone: ResNet-18 (input size: 384x384 (encoder), 480x480 (U-Net)) Dataset: YouTube-VOS, DAIVS-2017 Metric: region similarity (J), contour accuracy (F) Ablation Study
5.結果:貢献3、4 今回提案した機構を用いることで、少量のデータでもより効率的に学習できる(左) 自己教師あり学習では最も成績がよく、教師あり学習にも匹敵する(真ん中) 学習時になかったクラスに関しても結果が良い(右)
5.結果:Appendix 機構の有無による定性比較 U-Netのiter数による定性比較
6.まとめ:概要再掲 著者が挙げている4つの貢献 1. よりシンプルで効率的な記憶機構を提案し、対象の追跡性能を改善 2. 逐次的に予測を修正する機構を提案し、オクルージョンに対応 3. VOSに適した自己教師あり学習表現を獲得(少量のデータで学習可) 4. VOSの自己教師あり学習手法のベンチマークを更新
6.感想 Online Adaptationについて、論文を読む限りpropagationをし終えてからUNetの学習に入るように感じたがどのへんがOnlineなのか 合わせ技のような論文だったが、各手法の活用がよく出来ていると思った 細かい部分でわからないところが多かったので実装の公開が待たれる