[DL輪読会]Supervision-by-Registration

>100 Views

June 29, 18

#deep learning #Deep Learning #Computer Vision #Facial Landmark Detection #Supervision by Registration #Unsupervised Approach

スライド概要

2018/06/29
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 65.6K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.7K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 46.8K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 46K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 44.4K

各ページのテキスト

1 2018/4/27 DEEP LEARNING JP [DL Papers] Supervision-by-Registration: An Unsupervised Approach to Improve the Precision of Facial Landmark Detectors (CVPR’18) http://deeplearning.jp/

http://deeplearning.jp/

• • • Supervision-by-Registration: An Unsupervised Approach to Improve the Precision of Facial Landmark Detectors Xuanyi Dong, Shoou-I Yu, Xinshuo Weng, Shih-En Wei, Yi Yang, Yaser Sheikh University of Technology Sydney, Facebook Reality Labs • CVPR’18 (Poster) • http://xuanyidong.com/publication/supervision-by-registration/ • https://github.com/facebookresearch/supervision-by-registration 2

3 • 顔のランドマーク検出の精度を向上させるため，Unlabeledな動画に対し，Optical Flow (Lucas-Kanade) で予測した結果を利用する CNN (frame t-1) (frame t) ( ) CNN Lucas-Kanade ※ CNNとLucas-Kanadeの組み合わせは既にあった • CLKN: Cascaded Lucas-Kanade Networks for Image Alignment (CVPR’17) (frame t)

4 Image Registration https://stackoverflow.com/a/46609001

https://stackoverflow.com/a/46609001

5 Optical Flow • 画像中の物体の動きをベクトルで表したもの (x,y) • このときの (u,v) を求めたい (x+u,y+v)

Optical Flow 6 • 以下の仮定を置く (I: 画像1, T: 画像2) ( ) ( • これより， (Constraint Equation) /)

Lucas-Kanade • 空間的整合性を仮定 • 周辺の点は同じように動く • この方程式は最小二乗法で解ける 7

• 以下の最小化を考える • Wはワープ関数 (e.g., W(x;p) = [x + p1, y + p2]) • ここで，初期値 p は既知だとして，Δp を利用して逐次的に解く • つまり以下を最小化 • Gauss-Newton method 8

$ 9 (cont’d) ( #) (0) -1 (Gauss-Newton Hessian) NOTE: ∇IW(x;p), ∂W/∂pp" → !

10.

10 Inverse Compositional • 以下の最小化問題を考える • ワープ関数を以下で更新する • 先ほど同様テイラー近似して解くと -1 2 (T(W(x;0)) = T(x) ) ∂W/∂p(x;0) → OK!

11.

11 2xCN 2x2 CN x 1 CN x 2 Cx2 Cx2 2x2

12.

12 • xはNNで求める • 現在主流な座標推定方法は，Heatmapを用いるもの CNN Argmax • しかし，Argmaxは微分不可能．このままでは勾配を流せない • そこで，Soft-argmaxを利用する (End-to-End Training of Deep Visuomotor Policies (2015))

13.

(cont’d) 13 • I(W(x;p))として，ここではSpatial Transformer Network (2015) を利用 • アフィン変換に対応 • bilinearで補間して，sub-pixel単位での切り出しができる • cudnnに実装がある

14.

Lucas-Kanade 14

15.

• 最初はlabelありデータのみで学習 • その後，unlabeledなデータを組み合わせて学習 • このとき，Registration Lossを利用する • 実験では連続した3フレームを利用 • 5フレーム利用したら悪くなったという実験結果 15

16.

• Lucas-Kanadeは失敗する(大きくはずれる)ことがある • forward-backward checkで正しいと予測された結果のみ使用する 16

17.

17 NME ()

18.

Self-Training • Self-Trainingの方法 • training set で学習 • unlabeled dataを予測 • 高い確信度で予測した結果を擬似ラベルとして使って学習 • Self-Trainingの場合，擬似ラベルは正しいものとして扱われる • 仮に間違っていても何のフィードバックもない • 今回の手法では，擬似ラベル側 (LK予測側)にも勾配が流れる • LK方向に誤差を流さなかった場合 • NME 4.74 → 5.45 (YouTube Celebrities) 18

19.

• Lucas-Kanadeを利用したsemi-supervisedな学習方法の提案 • • • LK操作側にも勾配が流れることが通常のSelf-Trainingとの最大の違い時間的に一貫性のある出力がされるように学習されるアノテーションのずれに対してロバストになる • (局所的には)人間よりもOptical Flowで追跡した方がよっぽど精度が高い • 座標をsoftmaxで出して他の手法と組み合わせて最適化するのは最近増えている印象 • • 2D/3D Pose Estimation and Action Recognition using Multitask Deep Learning (CVPR’18) Improving Landmark Localization with Semi-Supervised Learning (CVPR’18) • 他のOptical Flowの手法との組み合わせは? 19

20.

• Xuanyi Dong et al., Supervision-by-Registration: An Unsupervised Approach to Improve the Precision of Facial Landmark Detectors, CVPR’18. • Che-Han Chang et al., CLKN: Cascaded Lucas-Kanade Networks for Image Alignment, CVPR’17. • Lukas-Kanadeの計算方法はこちらの方が若干詳しい • Simon Baker et al., Lucas-Kanade 20 Years On: A Unifying Framework, IJCV’04. 20