【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Videos

471 Views

March 20, 23

スライド概要

2023/3/3
Deep Learning JP
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Videos(CVPR 2022) [DL Papers] Yoshifumi Seki http://deeplearning.jp/

2.

書誌情報 ● 投稿先 ○ CVPR 2022 ● 投稿者 ● 選定理由 ○ 動画からの動作解析系に最近取り組ん でいます ○ 精華大学 https://github.com/ttlmh/Bridge-Prompt

3.

背景・目的 ● ● 動画からの動作解析をいい感じにやりたい 動作には連続性がある ○ ○ ● 連続性をモデルに組み込みたい ○ ● ex. 水を飲む動作 ■ コップを持つ -> 水を入れる -> 水を飲む ex. パンを食べる動作 ■ バターを塗る -> ジャムをぬる -> パンを食べる グラフモデルは最近いくつかあるが道のラベルには対応できない Prompt Engineeringをやって大規模言語モデルの強みを活かす

4.

Prompt Engineeringとは ● ● ● ● ● 与えられた入力(ラベル情報など)をテンプレートに入れて、適切な文として入力さ せることで、大規模言語モデルの恩恵を受けられるようにするアイデア GPT-3でのfew shot learningの仕組みに採用 OpenAIのCLIPによる画像分類でtext-image Action CLIPで動画にも適用

5.

CLIP(ICML2021) 2021/1/15の発表より

6.

CLIP(ICML2021) 2021/1/15の発表より

7.

ActionCLIP ● https://arxiv.org/abs/2109.08472 ラベルからPrompt Engineeringにより文章を生成 し、Text Encoder, Video Encoderによって類似性を図る ことでラベル推定をする

8.

提案手法

9.

提案手法の全体図

10.

Prompt部の詳細 ● 1. Stastical Prompt ○ ○ ● 2. Ordinal Prompt ○ ○ ● 何番目のactionか This is the {ord_i} action in the video. 3. Semantic Prompt ○ ● いくつactionが動画中にあるか The video has {num} actions. “{ord_i}, the person is performing the action step of {vp_i}” 3+1. Integrated Prompt ○ ○ 全部 Semanticを全て文として並べる

11.

評価用データセット ● 50Salads: 50 top view 30-fps instructional videos regarding salad preparation ○ ● Georgia Tech Egocentric Activities(GTEA): 28 egocentric 15-fps instructional videos daily kitchen activities ○ ● 19 kind of actions 74 class of actions Breakfast: 1,712 third person 15-fps videos of breakfast preparation activities. ○ ○ 48 type of different actions

12.

Implementation ● ● ● 動画は16 frameで分割される Kinetics-400でAction CLIPを用いて事前学習をする

15.

Long-termな映像に対する比較

17.

Fusion Moduleの比較・検討

18.

未知のIDに対する対応力 ● fine-tune時に特定の行動だけを学習させた場合、類似した行動を推定できるか? ○ ○ cofee2teaはfine-tuneをmaking cofeeだけで行って、 making teaが当てられるかを見る AKLは全体としての精度

19.

まとめ・感想 ● ● ● ● Prompt EngineeringがNLP以外にも出ていることを初めて知って勉強になりました 順序を持たせたことがどのような意味を持っているのかがこの実験だとあまりわか らなかったので残念 未知のIDに対応できているのはすごいけど、この実験方法がそれを測るのに適切 かは疑問 既存モデルとの違いをもう少し結果から読み取りたかった ○ 精度だけだとどこが良くなっているのかよくわからん