399 Views
March 20, 23
スライド概要
2023/3/3
Deep Learning JP
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Videos(CVPR 2022) [DL Papers] Yoshifumi Seki http://deeplearning.jp/
書誌情報 ● 投稿先 ○ CVPR 2022 ● 投稿者 ● 選定理由 ○ 動画からの動作解析系に最近取り組ん でいます ○ 精華大学 https://github.com/ttlmh/Bridge-Prompt
背景・目的 ● ● 動画からの動作解析をいい感じにやりたい 動作には連続性がある ○ ○ ● 連続性をモデルに組み込みたい ○ ● ex. 水を飲む動作 ■ コップを持つ -> 水を入れる -> 水を飲む ex. パンを食べる動作 ■ バターを塗る -> ジャムをぬる -> パンを食べる グラフモデルは最近いくつかあるが道のラベルには対応できない Prompt Engineeringをやって大規模言語モデルの強みを活かす
Prompt Engineeringとは ● ● ● ● ● 与えられた入力(ラベル情報など)をテンプレートに入れて、適切な文として入力さ せることで、大規模言語モデルの恩恵を受けられるようにするアイデア GPT-3でのfew shot learningの仕組みに採用 OpenAIのCLIPによる画像分類でtext-image Action CLIPで動画にも適用
CLIP(ICML2021) 2021/1/15の発表より
CLIP(ICML2021) 2021/1/15の発表より
ActionCLIP ● https://arxiv.org/abs/2109.08472 ラベルからPrompt Engineeringにより文章を生成 し、Text Encoder, Video Encoderによって類似性を図る ことでラベル推定をする
提案手法
提案手法の全体図
Prompt部の詳細 ● 1. Stastical Prompt ○ ○ ● 2. Ordinal Prompt ○ ○ ● 何番目のactionか This is the {ord_i} action in the video. 3. Semantic Prompt ○ ● いくつactionが動画中にあるか The video has {num} actions. “{ord_i}, the person is performing the action step of {vp_i}” 3+1. Integrated Prompt ○ ○ 全部 Semanticを全て文として並べる
評価用データセット ● 50Salads: 50 top view 30-fps instructional videos regarding salad preparation ○ ● Georgia Tech Egocentric Activities(GTEA): 28 egocentric 15-fps instructional videos daily kitchen activities ○ ● 19 kind of actions 74 class of actions Breakfast: 1,712 third person 15-fps videos of breakfast preparation activities. ○ ○ 48 type of different actions
Implementation ● ● ● 動画は16 frameで分割される Kinetics-400でAction CLIPを用いて事前学習をする
Long-termな映像に対する比較
Fusion Moduleの比較・検討
未知のIDに対する対応力 ● fine-tune時に特定の行動だけを学習させた場合、類似した行動を推定できるか? ○ ○ cofee2teaはfine-tuneをmaking cofeeだけで行って、 making teaが当てられるかを見る AKLは全体としての精度
まとめ・感想 ● ● ● ● Prompt EngineeringがNLP以外にも出ていることを初めて知って勉強になりました 順序を持たせたことがどのような意味を持っているのかがこの実験だとあまりわか らなかったので残念 未知のIDに対応できているのはすごいけど、この実験方法がそれを測るのに適切 かは疑問 既存モデルとの違いをもう少し結果から読み取りたかった ○ 精度だけだとどこが良くなっているのかよくわからん