【DL輪読会】Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives

11.7K Views

December 15, 23

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.6K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.5K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.3K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives Presenter: Yuki Kondo 2023.12.15 (Toyota Motor Corporation, Frontier Research Center) http://deeplearning.jp/ Yuki Kondo @ TOYOTA, Frontier Research Center 1

Section １．書誌情報・概要２．先行研究３．提案データセット４．ベンチマークタスク５．結論・所感 2

Section １．書誌情報・概要２．先行研究３．提案データセット４．ベンチマークタスク５．結論・所感 3

書誌情報 (1/2) • 論文名 Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives (arXiv2023) Ego4D [K. Grauman+ CVPR2022] と同様に、本研究も22の拠点をまたがり，101名の著者が参画した大規模ワーキンググループの成果である。 • 著者 Kristen Grauman et al. (他 100名) https://ego-exo4d-data.org/ より引用 (最終閲覧日：2023/12/14) 4

https://ego-exo4d-data.org/

書誌情報 (2/2) • URL 論文※：https://ego-exo4d-data.org/paper/ego-exo4d.pdf プロジェクトページ：https://ego-exo4d-data.org/ データセット：2023年12月末までに公開予定 Video : https://www.youtube.com/watch?v=GdooXEBAnI8&feature=youtu.be ※出典が明記されていない図表は当論文および上記URL先より引用 5

論文概要仮説：人間のスキルを捉えるためには，Ego. viewと Exo. viewが重要． Ego-Exo4D dataset 一人称視点 (Egocentric view: Ego. view)と外部視点(Exocentric view : Ego. view)から，スポーツ，音楽，ダンスなどの熟練した人の行動を，合計1,422時間撮影したデータセットを提案． 6

Section １．書誌情報・概要２．先行研究３．提案手法４．ベンチマークタスク５．結論・所感 7

Egocentric dataset • 近年，Egocentric videoの理解の研究が活発化．日常生活領域に焦点を当てている． Ego4D [K. Grauman+ CVPR2022] UT Ego [Y. Jae+ CVPR2012] EPIC-Kitchens [D. Damen+ IJCV2022] ADL [H. Pirsiavash, D. Ramanan. CVPR2012] Ego-Exo 4Dでは，① マルチモーダルなEgo-Exo キャプチャ ② 日常生活とは対照的な熟練した活動領域に焦点を当てている． 8

Multiview かつ ego-exo な dataset • 近年の傾向：特定の活動に焦点を当て，大規模化． CMU-MMAC [F. De la Torre+ TechReport2009] CharadesEgo [G. A. Sigurdsson+ CVPR2018] Assembly101 [F. Sener+ CVPR2022] Ego-Exo 4Dとの対比： ① 参加者，ロケーション，撮影時間が一桁多い． ② 研究室内のデモから，サッカー場，ダンススタジオなど，多様なシーンで，様々な全身ポーズや動きを得るため，多様性に富む． 9

10.

Section １．書誌情報・概要２．先行研究３．提案データセット４．ベンチマークタスク５．結論・所感 10

11.

Ego-Exo4D サンプル (料理タスク) 熟練した人の行動へ着目 Ego. viewと Exo. viewは補完的な情報を提供するか？現在のデータセットでは扱われていない新しい課題を提示できるか？異なるインスタンス間で期待される視覚的な多様性はあるか？技術や様々な専門知識を説明できるか？ 11

12.

Ego-Exo4D モダリティ・アノテーション構成 Ego. View • Project Aria device 利用 • RGBカメラ [J. Engel+ 2023] • モノクロステレオカメラ (SLAM用) • モノクロアイトラッキングカメラ • マイクロホンアレイ x 7 • IMU x 2, 気圧計，磁力計 • VIOおよびSLAMで 6DoF推定&地図生成 • 視線方向もアイカメラから取得． Exo. View • (Stationary) GoPro 利用 Annotations • 4~5台設置 • 言語アノテーション • Aria SLAMカメラで作成した点群地図を用いて，6DoFを取得 • 専門家のコメント：専門家の視点で見た，スキルニュアンスの総評を詳細に記述 GoPro (イメージ) https://videosalon.jp/news/go pro_hero10blackcreatoreditio n/ (最終参照日： 2023/12/14) • 実演者の行動ナレーション：チュートリアルのように自身の行動を説明 (全体の10%) • 原子行動記述：短い文で，複数の第三者が実演者の行動を記述 • ベンチマークタスクのためのアノテーション(後述) 12

https://videosalon.jp/news/gopro_hero10blackcreatoredition/

13.

Ego-Exo4D 対象行動 • Ego-Exo4Dの「熟練した人の行動への着目」に基づき，8つのスキルを選定． • いずれのスキルも，目標状態の達成のために，一連の行動が必要． • データの視覚的多様性を実現するため，世界中13都市のロケーションで撮影． • 839人の実演者から得た5,625テイクの動画データを提供． 13

14.

Section １．書誌情報・概要２．先行研究３．提案手法４．ベンチマークタスク５．結論・所感 14

15.

ベンチマークタスク概観 • 4つのベンチマークタスクを提供 Appendixには，各ベンチマークタスクの実験結果も記載． (本資料では割愛) 15

16.

Keystep Recognition① (Fine-grained keystep recognition) [ タスク定義 ] Ego., 複数Exo. ビデオセグメントから Keystep ラベル (689クラス)を学習．推論時，トリミングされた Ego. フレームのみが与えられ， Keystep ラベルを推定． [ 動機 ] • 複数視点モデルの学習により，視点不変表現の獲得，単一ビューのみを入力した際の相補性を期待 • 課題：Keystep ラベルの行動類似性 (例：ベッドシートを折りたたむ / 引き延ばす) 16

17.

Keystep Recognition② (Procedure understanding) • 17

18.

Keystep Recognition③ (Energy-efficient multimodal recognition) [ タスク定義 ] センシングおよび推論時のエネルギー制約と，異なるセンサモダリティのストリームから構成される Ego.映像が与えられ，センサの選定ポリシーも含めて，制約下でのキーステップのオンライン分類を課す． [ 動機 ] バッテリー残量が定められた実世界の問題設定のように，エネルギー予算が制限される環境下での，効率的なビデオモデルの実現を目指す． 18

19.

Proficiency Estimation [ タスク定義 ] ① Demonstrator: {Novice, early / intermediate / late expert} の4クラスビデオ分類 ② Demonstaration: {Correct, incorrect execution}のタイムスタンプ単位での2クラス分類 [ 動機 ] スキルレベルの推定を目的とする． ⇒ 新しいスキルをより効果的に学べる新しいコーチングツールや、スポーツや音楽のような領域における人間のパフォーマンスを評価する新しい方法につながる可能性がある 19

20.

Ego Pose Estimation [ タスク定義 ] Ego. ビデオから，カメラ装着者の身体と手の3D Ego. ポーズを推定 [ 動機 ] • 動的環境における単眼Ego. ビデオから，実演者の熟練した身体の動きを復元させる • ウェアラブルAIシステムには，エゴビューから身体の物理状態の推定が不可欠 • 課題： • 微妙で柔軟な動き • 頻繁なオクルージョン • 視界から外れた身体部位 20

21.

Relation ① (Ego-Exo Correspondence) [ タスク定義 ] Ego.-Exo. ペアの同期フレームにて，一方のフレームのオブジェクトのクエリマスクを与えた時，もう一方のフレームから対応するマスクを予測する [ 動機 ] • Ego.-Exo. 視点間のオブジェクトレベルの対応関係を確立することで， AIアシスタントが，その対応関係を用いて，視覚的な指示を可能とする • 課題：極端な視点の違い，高度のオクルージョン，微小物体の検出など 21

22.

Relation ② (Ego-Exo Translation) [ タスク定義 ] Exo. 動画クリップとその観測内のオブジェクトマスクが提供され，以下2つのタスクを解く． 1. Ego Track Prediction: 観測されていない Ego. フレーム内のオブジェクトマスクを予測 2. Ego Clip Generation: 生成されたEgo. ビューマスク内の RGB画像を生成 [ 動機 ] • 視点変換推定に伴う物体姿勢の暗な推定 ⇒ ロボットの知覚，ARコーチングへの応用 22

23.

Section １．書誌情報・概要２．先行研究３．提案手法４．ベンチマークタスク５．結論・所感 23

24.

結論・所感 [ 結論 ] • 人行動，特に熟練されたスキル学習のための最大級のマルチモーダル，多視点データセットおよびベンチマークタスクを提案． • 2024年6月にベンチマークチャレンジを開催予定． [ 所感 ] • データセットの貢献度の高さはもとより，複数拠点の研究者が，2年間かけて本研究を遂行されたことに敬服 • Ego-Exo4Dで獲得が期待されるEgo., Exo. のマッピング，不変表現がどのようなブレイクスルーを起こすか，注目したい • 新たなアノテーションの付与，ベンチマークタスクの提案も新規研究として狙いどころ • 論文ではタスクごとに個別のモデルを評価しているが，提案される複数タスクを一つのモデルで学習させることで，ビジョン基盤モデルの実現も期待できるのではないか？(岩澤先生との議論より) 24