>100 Views
November 21, 22
スライド概要
2022/11/18
Deep Learning JP
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP Ego-Exo: Transferring Visual Representations from Third-person to First-person Videos [DL Papers] (CVPR 2021) Yoshifumi Seki http://deeplearning.jp/
書誌情報 ● 投稿先 ○ CVPR 2021 ● 投稿者 ○ Facebook Research ● 選定理由 ○ 現職がウェアラブルデバイスの会社 ○ 1人称視点の映像をどう扱うかという
背景・目的 ● Egocentric Video (一人称視点の動画)のタスクいい感じに処理するための分 散表現を作りたい ● Egocentric Videoのデータセットの規模は小さいし多様ではない ● Exocentric Video (三人称視点の動画)はデータの規模が大きく多様 ● Exocentric Videoの規模の大きいデータセットを活用してEgocentric Videoに 役立つ特徴量を作りたい
Key Idea ● Third-personな動画セットにも first-personっぽい映像の要素が あるはず ○ それをいい感じに取り出していい感 じにしたい ● 複数のfirst-personタスクで蒸留 する
Framework Overview
Framework Overview
Traditional Pre-Training ● ● ● ● 大規模なThird Person VideoからPre-train Modelを作る データセットV_exo中のビデオvはT個のフレームf_1,...,f_Tをもつ フレームはN個のspatiotemporal clip feature x1,...,x_Nにencodeされる xはvideo encoder backbone (3D CNN)によってencodeされたモデル ○ c × t × h × w次元 ● 各ビデオにはaction label y_actが与えられており、ビデオのx_*を平均化した ものを入力して、y^_actを出力し、クロスエントロピーLossによって訓練す る ○ ここのpool+fc層をheadと呼ぶ
Framework Overview
Ego-Exo pre-training ● V_egoとV_exo両方を用いる ● 過去のegocentric under standingタスクにおけるモデルを用いる ● タスクτのモデルM_τにビデオを入力してラベルy_τを出力する ○ V_exoのビデオに各タスクに対してもこれで擬似ラベルを与える ● 各モデルに対するhead H^τに対してH^τ(v)とy_τとのauxilirary lossを計算し、 H^τを訓練する
Ego-task: Ego-Score ● Egocentricかそうでないかを判断するモデル ● Charades Egoという室内での物体とのインタラクションを行うデータセット を用いて訓練してモデルを生成 ○ ○ このデータセットにはego, exo両方のデータが含まれる 本来、同じ動きをego, exo両面から撮影したものであるが、こちらではそのペア情報は使わ ない ● Third-personのデータセットに対してもモデルを通して擬似ラベルを出力す る ○ 大規模なThird person videoデータセットの中にはegocentricなものも一定含まれている
Ego-task: Ego-Score
Ego-task: Object-Score ● 操作しているオブジェクトを特定するタスク ● Egocentric Videoにおける最も一般的なタスク ● シンプルにフレームごとにImageNetを使って予測
Ego-Task: Interaction-Map ● 物体を操作しているregionを特定する ● 既存研究のhand object detectorを用いる ○ 各フレームに対してbounding box bとconfidence score sのセットを出力する ● β_i,j: i, jのgrid cellに対してまたがっているbounding box
Ego-Task: Interaction-Map ● 各領域i, jに対してy^h, y^oを出力する
Ego-Task: Interaction-Map ● なぜ通常の既存研究で用いられているbounding boxではなく、Interaction Mapを生成したのか? ○ ○ 既存研究のnetworkはstandardなvideo backboneと可換性がない ■ 既存研究は特化したnetworkで構築されていて、高解像度なデータでのみ利用可能 mapにおけるscoreを出力によって学習する方が、representationを学習するためには良 い ■ 多分学習しやすい、みたいな意図かなぁと推測
Ego-Exo training and evaluation ● Third-personのビデオで手が映ってなかったり物体とのインタラクションが ないものがあるが、それも学習に寄与する
データセット ● Kinetics-400 ○ ○ popular third-person dataset ~300k video, 400 human action classes ● Charades-Ego ○ ○ ○ ~68k instances 157 activity class 第三者映像と主観映像のペアがあるが本研究では用いない ● EPIC-Kitchens ○ ○ ○ キッチンでの主観映像 55時間のビデオ、39k action segmentets 352 objectで125の動作がアノテーションされている ● EPIC-Kitchens-100 ○ 100時間で90kのアクションに拡張
比較手法 ● ● ● ● Scrach: pre-trainをせず、ランダムな初期化によって直接fine-tuneをする Third-Only: pre-trainをKinetics 400で行う。 First-Only: pre-trainをKitchen-100で行う Domain-adapt: first-personとthird-personでdomain adaptationを行った既存研 究 ● Joint-embed: Kinetic-400でpre-trainした後、Charades-Egoでviewpointinvariant video modelを学習する ● Ego-Exo: pre-trainをKinetics400でやった後3つのタスクを学習する
Ablation Study
● SOTAのモデルはもっとたくさんの特徴量を使っている(audio, flow)
まとめ ● 第三者視点映像を使って主観視点映像のスコアを向上させるための汎用的な 分散表現を獲得しようという試み ● first-person view周りの取り組みについてちゃんとよんだのは初めてだったの で勉強になった ● 精度が上がったことはわかったけど、これが汎用的な表現なのか?という点 については疑問が残る