[DL輪読会]Supervision-by-Registration

>100 Views

June 29, 18

スライド概要

2018/06/29
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

1 2018/4/27 DEEP LEARNING JP [DL Papers] Supervision-by-Registration: An Unsupervised Approach to Improve the Precision of Facial Landmark Detectors (CVPR’18) http://deeplearning.jp/

2.

 • • • Supervision-by-Registration: An Unsupervised Approach to Improve the Precision of Facial Landmark Detectors Xuanyi Dong, Shoou-I Yu, Xinshuo Weng, Shih-En Wei, Yi Yang, Yaser Sheikh University of Technology Sydney, Facebook Reality Labs • CVPR’18 (Poster) • http://xuanyidong.com/publication/supervision-by-registration/ • https://github.com/facebookresearch/supervision-by-registration 2

3.

3  • 顔のランドマーク検出の精度を向上させるため,Unlabeledな動画に対 し,Optical Flow (Lucas-Kanade) で予測した結果を利用する CNN   (frame t-1)   (frame t) ( ) CNN  Lucas-Kanade ※ CNNとLucas-Kanadeの組み合わせは既にあった • CLKN: Cascaded Lucas-Kanade Networks for Image Alignment (CVPR’17)   (frame t)  

4.

4 Image Registration  https://stackoverflow.com/a/46609001   

5.

5 Optical Flow • 画像中の物体の動きをベクトルで表したもの (x,y) • このときの (u,v) を求めたい (x+u,y+v)

6.

Optical Flow  6  • 以下の仮定を置く (I: 画像1, T: 画像2) ( ) ( • これより, (Constraint Equation)    /)

7.

Lucas-Kanade • 空間的整合性を仮定 • 周辺の点は同じように動く • この方程式は最小二乗法で解ける 7

8.

  • 以下の最小化を考える • Wはワープ関数 (e.g., W(x;p) = [x + p1, y + p2]) • ここで,初期値 p は既知だとして,Δp を利用して逐次的に解く • つまり以下を最小化 • Gauss-Newton method 8

9.

$ 9  (cont’d) ( #) (0) -1 (Gauss-Newton Hessian) NOTE: ∇IW(x;p), ∂W/∂pp" →  !

10.

10 Inverse Compositional • 以下の最小化問題を考える • ワープ関数を以下で更新する • 先ほど同様テイラー近似して解くと -1 2 (T(W(x;0)) = T(x) ) ∂W/∂p(x;0) →    OK!

11.

11  2xCN 2x2 CN x 1 CN x 2 Cx2 Cx2 2x2     

12.

12  • xはNNで求める • 現在主流な座標推定方法は,Heatmapを用いるもの CNN Argmax  • しかし,Argmaxは微分不可能.このままでは勾配を流せない • そこで,Soft-argmaxを利用する (End-to-End Training of Deep Visuomotor Policies (2015))

13.

 (cont’d) 13 • I(W(x;p))として,ここではSpatial Transformer Network (2015) を利用 • アフィン変換に対応 • bilinearで補間して,sub-pixel単位での切り出しができる • cudnnに実装がある

14.

Lucas-Kanade 14

15.

 • 最初はlabelありデータのみで学習 • その後,unlabeledなデータを組み合わせて学習 • このとき,Registration Lossを利用する • 実験では連続した3フレームを利用 • 5フレーム利用したら悪くなったという実験結果 15

16.

 • Lucas-Kanadeは失敗する(大きくはずれる)ことがある • forward-backward checkで正しいと予測された結果のみ使用する 16

17.

17  NME     ()

18.

Self-Training • Self-Trainingの方法 • training set で学習 • unlabeled dataを予測 • 高い確信度で予測した結果を擬似ラベルとして使って学習 • Self-Trainingの場合,擬似ラベルは正しいものとして扱われる • 仮に間違っていても何のフィードバックもない • 今回の手法では,擬似ラベル側 (LK予測側)にも勾配が流れる • LK方向に誤差を流さなかった場合 • NME 4.74 → 5.45 (YouTube Celebrities) 18

19.

 • Lucas-Kanadeを利用したsemi-supervisedな学習方法の提案 • • • LK操作側にも勾配が流れることが通常のSelf-Trainingとの最大の違い 時間的に一貫性のある出力がされるように学習される アノテーションのずれに対してロバストになる • (局所的には)人間よりもOptical Flowで追跡した方がよっぽど精度が高い • 座標をsoftmaxで出して他の手法と組み合わせて最適化するのは最近増えてい る印象 • • 2D/3D Pose Estimation and Action Recognition using Multitask Deep Learning (CVPR’18) Improving Landmark Localization with Semi-Supervised Learning (CVPR’18) • 他のOptical Flowの手法との組み合わせは? 19

20.

 • Xuanyi Dong et al., Supervision-by-Registration: An Unsupervised Approach to Improve the Precision of Facial Landmark Detectors, CVPR’18. • Che-Han Chang et al., CLKN: Cascaded Lucas-Kanade Networks for Image Alignment, CVPR’17. • Lukas-Kanadeの計算方法はこちらの方が若干詳しい • Simon Baker et al., Lucas-Kanade 20 Years On: A Unifying Framework, IJCV’04. 20