6.6K Views
December 15, 23
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives Presenter: Yuki Kondo 2023.12.15 (Toyota Motor Corporation, Frontier Research Center) http://deeplearning.jp/ Yuki Kondo @ TOYOTA, Frontier Research Center 1
Section 1.書誌情報・概要 2.先行研究 3.提案データセット 4.ベンチマークタスク 5.結論・所感 2
Section 1.書誌情報・概要 2.先行研究 3.提案データセット 4.ベンチマークタスク 5.結論・所感 3
書誌情報 (1/2) • 論文名 Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives (arXiv2023) Ego4D [K. Grauman+ CVPR2022] と同様に、 本研究も22の拠点をまたがり,101名の著者が 参画した大規模ワーキンググループの成果である。 • 著者 Kristen Grauman et al. (他 100名) https://ego-exo4d-data.org/ より引用 (最終閲覧日:2023/12/14) 4
書誌情報 (2/2) • URL 論文※:https://ego-exo4d-data.org/paper/ego-exo4d.pdf プロジェクトページ:https://ego-exo4d-data.org/ データセット:2023年12月末までに公開予定 Video : https://www.youtube.com/watch?v=GdooXEBAnI8&feature=youtu.be ※出典が明記されていない図表は当論文および上記URL先より引用 5
論文概要 仮説:人間のスキルを捉えるためには,Ego. viewと Exo. viewが重要. Ego-Exo4D dataset 一人称視点 (Egocentric view: Ego. view)と外部視点(Exocentric view : Ego. view)から, スポーツ,音楽,ダンスなどの熟練した人の行動を,合計1,422時間撮影したデータセットを提案. 6
Section 1.書誌情報・概要 2.先行研究 3.提案手法 4.ベンチマークタスク 5.結論・所感 7
Egocentric dataset • 近年,Egocentric videoの理解の研究が活発化.日常生活領域に焦点を当てている. Ego4D [K. Grauman+ CVPR2022] UT Ego [Y. Jae+ CVPR2012] EPIC-Kitchens [D. Damen+ IJCV2022] ADL [H. Pirsiavash, D. Ramanan. CVPR2012] Ego-Exo 4Dでは,① マルチモーダルなEgo-Exo キャプチャ ② 日常生活とは対照的な熟練した活動領域 に焦点を当てている. 8
Multiview かつ ego-exo な dataset • 近年の傾向:特定の活動に焦点を当て,大規模化. CMU-MMAC [F. De la Torre+ TechReport2009] CharadesEgo [G. A. Sigurdsson+ CVPR2018] Assembly101 [F. Sener+ CVPR2022] Ego-Exo 4Dとの対比: ① 参加者,ロケーション,撮影時間が一桁多い. ② 研究室内のデモから,サッカー場,ダンススタジオなど,多様なシーンで,様々な全身ポーズや 動きを得るため,多様性に富む. 9
Section 1.書誌情報・概要 2.先行研究 3.提案データセット 4.ベンチマークタスク 5.結論・所感 10
Ego-Exo4D サンプル (料理タスク) 熟練した人の行動へ着目 Ego. viewと Exo. viewは 補完的な情報を 提供するか? 現在のデータセットでは 扱われていない新しい 課題を提示できるか? 異なるインスタンス間で期 待される視覚的な 多様性はあるか? 技術や様々な 専門知識を 説明できるか? 11
Ego-Exo4D モダリティ・アノテーション構成 Ego. View • Project Aria device 利用 • RGBカメラ [J. Engel+ 2023] • モノクロステレオカメラ (SLAM用) • モノクロアイ トラッキングカメラ • マイクロホンアレイ x 7 • IMU x 2, 気圧計,磁力計 • VIOおよびSLAMで 6DoF推定&地図生成 • 視線方向もアイカメラから取得. Exo. View • (Stationary) GoPro 利用 Annotations • 4~5台設置 • 言語アノテーション • Aria SLAMカメラで作成した 点群地図を用いて,6DoFを取得 • 専門家のコメント:専門家の視点で見た,スキルニュアンスの総評を詳細に記述 GoPro (イメージ) https://videosalon.jp/news/go pro_hero10blackcreatoreditio n/ (最終参照日: 2023/12/14) • 実演者の行動ナレーション:チュートリアルのように自身の行動を説明 (全体の10%) • 原子行動記述:短い文で,複数の第三者が実演者の行動を記述 • ベンチマークタスクのためのアノテーション(後述) 12
Ego-Exo4D 対象行動 • Ego-Exo4Dの「熟練した人の行動への着目」に基づき,8つのスキルを選定. • いずれのスキルも,目標状態の達成のために,一連の行動が必要. • データの視覚的多様性を実現するため,世界中13都市のロケーションで撮影. • 839人の実演者から得た5,625テイクの動画データを提供. 13
Section 1.書誌情報・概要 2.先行研究 3.提案手法 4.ベンチマークタスク 5.結論・所感 14
ベンチマークタスク概観 • 4つのベンチマークタスクを提供 Appendixには,各ベンチマークタ スクの実験結果も記載. (本資料では割愛) 15
Keystep Recognition① (Fine-grained keystep recognition) [ タスク定義 ] Ego., 複数Exo. ビデオセグメントから Keystep ラベル (689クラス)を学習.推論時,トリミングされた Ego. フレームのみが与えられ, Keystep ラベルを推定. [ 動機 ] • 複数視点モデルの学習により,視点不変表現の獲得,単一ビューのみを入力した際の相補性を期待 • 課題:Keystep ラベルの行動類似性 (例:ベッドシートを折りたたむ / 引き延ばす) 16
Keystep Recognition② (Procedure understanding) • 17
Keystep Recognition③ (Energy-efficient multimodal recognition) [ タスク定義 ] センシングおよび推論時のエネルギー制約と,異なるセンサモダリティのストリームから構成される Ego.映像が与えられ,センサの選定ポリシーも含めて,制約下でのキーステップのオンライン分類を課す. [ 動機 ] バッテリー残量が定められた実世界の問題設定のように,エネルギー予算が制限される環境下での, 効率的なビデオモデルの実現を目指す. 18
Proficiency Estimation [ タスク定義 ] ① Demonstrator: {Novice, early / intermediate / late expert} の4クラスビデオ分類 ② Demonstaration: {Correct, incorrect execution}のタイムスタンプ単位での2クラス分類 [ 動機 ] スキルレベルの推定を目的とする. ⇒ 新しいスキルをより効果的に学べる新しいコーチングツールや、スポーツや音楽のような 領域における人間のパフォーマンスを評価する新しい方法につながる可能性がある 19
Ego Pose Estimation [ タスク定義 ] Ego. ビデオから,カメラ装着者の身体と手の3D Ego. ポーズを推定 [ 動機 ] • 動的環境における単眼Ego. ビデオから,実演者の熟練した身体の動きを復元させる • ウェアラブルAIシステムには,エゴビュー から身体の物理状態の推定が不可欠 • 課題: • 微妙で柔軟な動き • 頻繁なオクルージョン • 視界から外れた身体部位 20
Relation ① (Ego-Exo Correspondence) [ タスク定義 ] Ego.-Exo. ペアの同期フレームにて,一方のフレームのオブジェクトの クエリマスクを与えた時,もう一方のフレームから対応するマスクを予測する [ 動機 ] • Ego.-Exo. 視点間のオブジェクトレベルの対応関係を確立することで, AIアシスタントが,その対応関係を用いて,視覚的な指示を可能とする • 課題:極端な視点の違い,高度のオクルージョン,微小物体の検出 など 21
Relation ② (Ego-Exo Translation) [ タスク定義 ] Exo. 動画クリップとその観測内のオブジェクトマスクが提供され, 以下2つのタスクを解く. 1. Ego Track Prediction: 観測されていない Ego. フレーム内のオブジェクトマスクを予測 2. Ego Clip Generation: 生成されたEgo. ビューマスク内の RGB画像を生成 [ 動機 ] • 視点変換推定に伴う物体姿勢の暗な推定 ⇒ ロボットの知覚,ARコーチングへの応用 22
Section 1.書誌情報・概要 2.先行研究 3.提案手法 4.ベンチマークタスク 5.結論・所感 23
結論・所感 [ 結論 ] • 人行動,特に熟練されたスキル学習のための最大級のマルチモーダル,多視点データセット およびベンチマークタスクを提案. • 2024年6月にベンチマークチャレンジを開催予定. [ 所感 ] • データセットの貢献度の高さはもとより,複数拠点の研究者が,2年間かけて本研究を 遂行されたことに敬服 • Ego-Exo4Dで獲得が期待されるEgo., Exo. のマッピング,不変表現がどのような ブレイクスルーを起こすか,注目したい • 新たなアノテーションの付与,ベンチマークタスクの提案も新規研究として狙いどころ • 論文ではタスクごとに個別のモデルを評価しているが,提案される複数タスクを一つのモデルで 学習させることで,ビジョン基盤モデルの実現も期待できるのではないか?(岩澤先生との議論より) 24