[DL輪読会]MAST: A Memory-Augmented Self-supervised Tracker

>100 Views

April 03, 20

スライド概要

2020/04/03
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP MAST: A Memory-Augmented Self-Supervised Tracker [DL Papers] Keigo Iwakuma http://deeplearning.jp/

2.

目次 本論文の選定理由:ベンチマークを大幅に更新している! • 書誌情報 • 導入 • 関連研究 • 提案手法 • 実験・評価 • 読んだ感想 Figure: Video Object Segmentationにおけるベンチマーク性能比較 (縦軸:評価指標、横軸:訓練に使用したラベル付きデータ数)

3.

書誌情報 • タイトル MAST: A Memory-Augmented Self-Supervised Tracker - Accepted to CVPR 2020 (以下ページのコメントより) - URL: https://arxiv.org/abs/2002.07793 • 著者 Zihang Lai, Erika Lu, Weidi Xie - Visual Geometry Group, Department of Engineering Science University of Oxford - URL: https://www.robots.ox.ac.uk/~vgg/

4.

導入:Video Object Segmentation (VOS) • タスクの説明:一連の動画内の対象を識別しマスクを生成する - 画像に対するInstance Segmentationを動画へ拡張したもの - Multi Object Trackingにおけるバウンディングボックスをマスクへ発展させたもの テスト時に動画の最初のフレームの対象ラベルが与えられている設定のもの:Semi-Supervised VOS そうでないもの:Unsupervised VOS

5.

導入:Video Object Segmentation (VOS) • タスクの説明:一連の動画内の対象を識別しマスクを生成する - 画像に対するInstance Segmentationを動画へ拡張したもの - Multi Object Trackingにおけるバウンディングボックスをマスクへ発展させたもの 本論文での設定 テスト時に動画の最初のフレームの対象ラベルが与えられている設定のもの:Semi-Supervised VOS そうでないもの:Unsupervised VOS

6.

導入:本論文での貢献 1. VOSにおける従来の自己教師あり学習方法と損失について見直し、 より最適な枠組みを見つけた 2. 長期記憶と短期記憶を活用する記憶モジュールを提案することで、 オクルージョンや対象のドラフト問題などに対応した 3. 代表的な評価指標で、初めて従来の教師あり学習でのVOS手法に 匹敵する自己教師あり学習手法を提案できた (またVOSに関する一般性を評価する指標を提案し、そちらでは提 案手法が教師あり学習手法を上回った)

7.

導入:自己教師あり学習VOSの動機 1. トラッキングをトップダウンで教えるのは人間の場合と異なる 人を見つける(検出) 「人」がわからない 人の概念を教える必要あり ⇒ アノテーションデータで学習させる 左と同じものを右から見つける(トラッキング) 「人」がわからない 人の概念は必要なし ⇒ 画像内の情報で上手く特徴が作れれば 特徴空間内の比較でトラッキング出来るはず... 2. 動画のアノテーションは時間も労力もかかる

8.

関連研究:Tracking Emerges by Colorizing Videos Vondrick et.al, Google Research, ECCV2018 画像内にある情報:色 ⇒ グレー画像からRGB画像の復元 ただし、復元する際には参照画像のRGB画像を利用できる設定にする

9.

関連研究:Tracking Emerges by Colorizing Videos Vondrick et.al, Google Research, ECCV2018 画像内にある情報:色 ⇒ グレー画像からRGB画像の復元 ただし、復元する際には参照画像のRGB画像を利用できる設定にする Cは16段階で分ける (One-Hot)

10.

提案手法:MAST • 従来手法の変更点1:入力画像 入力画像をグレー画像からLab画像に変更し、Channel Dropoutを追加 - RGB画像ではなくLab画像にする理由: R, G, B全てに明るさ成分が含まれておりチャンネルに相関がある

11.

提案手法:MAST • 従来手法の変更点2:出力画像 出力画像の色を16段階からLabの3チャンネル(各成分[-1,1])に変更 問題設定も分類から回帰に変更し損失関数も以下のフーバー損失に :再構成したフレームのi番目のpixel値

12.

提案手法:MAST • 従来手法の変更点3:記憶モジュールの提案 参照画像として連続したフレームだけでなく離れたフレームも保持 - 具体的には現在がt番目のとき、1, 5, t-5, t-3, t-1番目の5つを記憶 (前半が長期記憶、後半が短期記憶を担う)

13.

提案手法:MAST • 従来手法の変更点3:アテンションについて Value: 参照画像、Key: 参照の特徴マップ、Query: 現在の特徴マップ

14.

提案手法:MAST • 従来手法の変更点3:記憶モジュールの提案 アテンションの軽量化 - アテンション範囲の限定:計算負荷とメモリ負荷を軽減 - 限定した代わりにどこを中心にするかの問題が生じる

15.

提案手法:MAST • 従来手法の変更点3:記憶モジュールの提案 アテンションの軽量化 - 参照画像へのアテンション中心の考え方: 短期記憶内(t-5, t-3, t-1番目)では注目位置の近くでいいはずだが 長期記憶(1, 5番目)では画像内のどこを参照してもおかしくない : に基づいて特徴マップを行列に変換 :

16.

提案手法:MAST • 従来手法の変更点3:まとめ 学習時

17.

実験・評価 評価指標 ・region similarity ・contour accuracy :動画を通しての平均IOU :動画を通しての輪郭同士の平均F1値 ・generalizability: 提案指標: Youtube-VOS データセットには訓練データに含まれるクラスと 含まれないクラスがあるため、そのクラスごとの評価指標での差を表す 小さいほど良い評価となる

18.

実験・評価:定量評価 DAVIS-2017結果 Youtube-VOS結果

19.

実験・評価:定性評価 DAVIS-2017結果

20.

実験・評価:Ablation studies

21.

読んだ感想・まとめ ・本論文では、自己教師あり学習によるVideo Object Segmentationの手法を提案し、 代表的な評価指標で従来の教師あり学習による手法に匹敵する成績を残した。 ・また、従来の自己教師あり学習による手法に対して解決策を提案し より最適な枠組みを作ることに成功した。 ・自己教師あり学習について実際のCVタスクに基づいて枠組み・考え方を知ることが出来た ・関連研究で紹介した論文でのトラッキングの枠組みは新しいと感じたので、 自分の研究にも生かしていきたい ・関連研究では色付けを、本研究ではフレーム自体の再構成を訓練時のタスクとしていたが、 そこが変わることによる影響についての言及がなかったので気になる