[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locations in Videos

>100 Views

May 31, 19

#deep learning #Deep Learning #Prediction #Activity Recognition #Trajectory Prediction #Computer Vision

スライド概要

2019/05/31
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Peeking into the Future: Predicting Future Person Activities and Locations in Videos Norihisa Kobayashi http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル：著者： Peeking into the Future: Predicting Future Person Activities and Locations in Videos （CVPR2019）（https://arxiv.org/abs/1902.03748） Junwei Liang, Lu Jiang, Juan Carlos Niebles, Alexander Hauptmann, Li Fei-Fei （Google, Carnegie Mellon University, Stanford University）概要： • 人の将来の経路／軌道を予測するモジュール Next • 将来の「経路」と将来の「活動」を同時に学習することで精度を向上 • ActEV 、UCY&UCYデータセットにおいて、SOTA その他：特設ページ： https://next.cs.cmu.edu/ GitHub： https://github.com/google/next-prediction 2

アジェンダ 1. 2. 3. 4. 5. 概要先行研究提案手法実験結果まとめ 3

1. 概要背景経路／軌道予測問題 • 人の将来の経路／軌道を予測したい。 • 経路／軌道予測により、事故警報や自動運転、スマートロボットなどのアプリケーションを可能にしたい。 • 従来の研究では、人物の特徴量や周りの環境（車道 or 歩道）の特徴量から経路を予測している。過去未来現在 • しかし、従来の研究では、それらの行動の意図はほとんど考慮されていない。将来の行動は、その行動の目的・意図が分かれば、予測精度が高まるのではないか？ 4

1. 概要提案手法：Next 予測タスク：右上の人の経路を予測する状態：右上の⼈は箱を運んでおり、左下の男はその⼈に向かって⼿を振っている。中央には白い車がある。 • ⼈は目的に応じて異なる経路をたどる目的①：荷物を運ぶ ⇒緑色の経路が候補に挙がる目的②：荷物を車に積む ⇒黄色の経路が候補に挙がる「経路」と「行動」を同時に学習することで、経路予測の精度を高める 5

1. 概要提案手法：Next • 「経路」と一緒に「行動」を学習する • 映像から得られる豊富な情報を考慮に入れることで、将来の進路だけでなく将来の活動も理解する能力を向上させる • ストリーミングビデオにおける将来の経路とアクティビティの予測とを合わせた最初の研究 6

2. 先行研究 Social LSTM [Alahi et al., 2016] • 複数の歩行者の移動経路を同時に予測 • 時間的に一致する軌道間で起こる典型的な相互作用を自動的に学習する Social Pooling Layerを提案 - 歩行者は互いの未来の位置を予測し、衝突を避けるために経路を調整するという考えから、相互作用を考慮 - 特定の半径内の全てのLSTMの隠れ状態を一緒にpoolingし、次の時間ステップで入力として渡す 7

2. 先行研究 Social GAN[Gupta et al., 2018] • シーン内のすべての人同士の相互関係を取り入れた行動予測モデル(Social Pooling Layerは付近の人のみを考慮) • 「平均的なふるまい」ではなく、社会的に「良い行動」の分布を学習する • 人物同士の相対位置を計算。各人に対して、位置関係をMLPにかけて、MAX プーリングすることでベクトルPを作成。 8

2. 先行研究 Scene LSTM[Manh et al., 2018] • 静的シーンをマンハッタングリッドに分割し、LSTMを使用して歩行者の位置を予測 9

10.

３. 提案手法アーキテクチャの全体象 Person Behavior module 人の外観と体の動きの特徴を抽出する。 Person Interaction module 人とその周囲との間のインタラクションを調べる。 Trajectory Generator LSTMデコーダによって将来の軌跡を予測する。 Activity Prediction 人の将来の位置と活動を予測する。 10

11.

3. 提案手法アプローチ • • • 人間は、特定の目的を念頭に置いて空間を移動する。そのような目的は、将来の軌道/進路をかなり方向付ける可能性がある。本研究では、 “walk”、 “open door”、 “talk” などの定義済みの将来の活動ラベルから意図をモデル化する。本研究で用いているActivity 時間の表記 t=1 過去現在 1 ~ 𝑇𝑜𝑏𝑠 t = 𝑇𝑜𝑏𝑠 未来 𝑇𝑜𝑏𝑠 + 1 ~ 𝑇𝑝𝑟𝑒𝑑 t = 𝑇𝑝𝑟𝑒𝑑 11

12.

3. 提案手法 Person Behavior Module • シーン内のすべての個人に関する視覚情報をエンコードする。 • 人の外観と体の動きの特徴を抽出する。２つのモジュール ① Person Appearance Encoder ② Person Keypoint Encoder 12

13.

3. 提案手法 Person Behavior Module ① Person Appearance Encoder • RoI Alignを用いて人物の領域を抽出。 • 各人物のバウンディングボックスについて、固定サイズのCNN特徴を抽出する。 • シーン内のすべての人に対して、特徴を抽出し、それらをLSTMエンコーダに送り、𝑇𝑜𝑏𝑠 × 𝑑 の特徴量とする（dは、短期記憶のサイズ）セマンティックセグメンテーションの特徴サイズ（64, 36）カーネルサイズ：3、ストライド：2、チャネル数：64 活性化関数：tanh キーポイント数：17 ② Person Keypoint Encoder • MS COCOデータセットでトレーニングされた人のキーポイント検出モデルを使用して、人のキーポイント情報を抽出 • LSTMエンコーダに入力する前に、線形変換を適用してキーポイント座標をエンコード。 • キーポイントエンコーダーにて、 𝑇𝑜𝑏𝑠 × 𝑑 の特徴量とする。 13

14.

3. 提案手法 Person Interaction Module • 人と周囲（オブジェクトとシーン）との間の相互関係を見るモジュール２つのモジュール ① Person-Scene Encoder ② Person-Object Encoder 14

15.

3. 提案手法 Person Interaction Module ① Person-scene • • セマンティックセグメンテーションにより、歩道、芝生など、 10種類のラベル付けを行い、CNNで特徴マップを作成。特徴マップに人の位置を合わせる（図の赤色で表現） • これをLSTMエンコーダに入力し、𝑇𝑜𝑏𝑠 × 𝑑 の特徴量とする。 ②Person-object • 人の位置 (𝑥𝑏 , 𝑦𝑏 , 𝑤𝑏 , ℎ𝑏 ) • 物体の位置 (𝑥𝑘 , 𝑦𝑘 , 𝑤𝑘 , ℎ𝑘 ) • 幾何学的関係 G ∈ 𝑅𝐾×4 (𝑥𝑏 , 𝑦𝑏 ) (𝑥𝑘 , 𝑦𝑘 ) ℎ𝑏 ℎ𝑘 𝑤𝑘 𝑤𝑏 対数関数を使うことで、人間の軌跡は近くの物や人によって影響される可能性が⾼い、という観察を反映 15

16.

3. 提案手法 Visual Feature Tensor Q • これまで抽出した４つの視覚的特徴を、別々のLSTMエンコーダによって同じ次元にエンコード。・外観（Person Appearance Encoder）・体の動き（Person Keypoint Encoder）・人-シーン間の関係（Person-scene）・人-物体間の関係（Person-object） • 上記４つに加えて、ひとつ前の時刻の軌跡情報を特徴量として与える 𝑊 と 𝑏 は、学習可能なパラメーター • 以上から、M=5のVisual Feature Tensor Q が作成される 𝑄 ∈ 𝑅𝑀×𝑇𝑜𝑏𝑠 ×𝑑 Visual Feature Tensor Qの入力は、すべて長さ 𝑇𝑜𝑏𝑠 × 𝑑 に統一 Embedding Layer のサイズ𝑑𝑒 ： 128 Hidden Layerのサイズ 𝑑 ： 256 16

17.

3. 提案手法 Trajectory Generation with Focal Attention • 将来の軌跡を予測する。 • LSTMデコーダーの状態ℎ𝑡 は以下で表現できる：ひとつ前の時刻の軌跡：特徴Ｑの主要特徴を要約した特徴量 17

18.

3. 提案手法 Trajectory Generation with Focal Attention の算出：attention matrix ：sequence attention matrix Mは前述のVisual Feature Tensor の各テンソル相関行列 𝑆 𝑡 ∈ 𝑅𝑀×𝑇𝑜𝑏𝑠 𝑆𝑖𝑗𝑡 = ℎ𝑇𝑡−1・𝑄𝑖𝑗 を各時刻t において計算。 ←内積より類似性抽出 ※Focal Attentionは、異なる特徴間の相関をモデル化し、それらを低次元の有向ベクトルに要約する。 VQA（ FVTA ）で利用されていた手法を利用。※参考文献 [17] 18

19.

3. 提案手法 ①Activity location prediction (a) 位置分類 • ビデオフレームを離散化されたｈ×ｗグリッド、すなわちマンハッタングリッドに分割 • 最終位置座標が存在する正しいグリッドブロックを予想する。（図の青色の四角枠） (b) 位置回帰 • グリッドブロックの中⼼（図の緑色の点）から最終的な位置座標（赤色の⽮印の端）までの差を予測する。 ② Activity label prediction • 𝑇𝑝𝑟𝑒𝑑 におけるアクティビティラベルを予測する。 ※ 将来のアクティビティは、「走る」＋「運ぶ」など、マルチラベルになることが考えられる 19

20.

3. 提案手法損失関数 ① ② ③ ①軌跡の誤差 𝑇𝑜𝑏𝑠+1 ～𝑇𝑝𝑟𝑒𝑑 までの真の軌跡と予測の軌跡との差分（L2ロス） ②位置分類の誤差真の位置クラスと予測の位置クラスの交差エントロピー誤差 ∗𝑖 𝑐𝑙𝑠𝑔𝑟𝑖𝑑 は、最終位置のグリッドブロックの真のクラス ④ ③位置回帰の誤差 𝐿𝑔𝑟𝑖𝑑_𝑟𝑒𝑔 = 真の位置と予測位置の差分（L2 ロス） ④将来のアクティビティの誤差真のアクティビティクラスと予測のアクティビティクラスの交差エントロピー誤差 20

21.

４. 実験結果実装の詳細入力入力動画：1920x1080にリサイズグリッドスケール：32x18、 16x9 評価指標 ADE（Average Displacement Error） • すべての時点におけるGround Truth座標と予測座標との間の平均ユークリッド距離学習学習率：0.1 ドロップアウト率：0.3 最適化手法：Adadelta Gradient Clipping：10 重みの減衰：0.0001 FDE（Final Displacement Error） • 最終的な時点におけるGround Truth座標と予測座標との間のユークリッド距離 21

22.

４. 実験結果データセット ActEV（Activities in Extended Video） • ストリーミングビデオの活動検出研究のために2018 年にNISTによって公開された公開データセット（https://actev.nist.gov/） • VIRAT の改良版 ETH/UCY • 人の歩行軌跡データセット • 鳥瞰視点映像 22

https://actev.nist.gov/

23.

４. 実験結果定量的評価（ActEV データセット） Linear：線形回帰 LSTM：座標入力のみを持つ単純なLSTM Social LSTM：ガウスパラメータの代わりに軌跡座標を直接予測するようにsocial LSTMモデルを訓練する。 SGAN：Social-GAN。2つのモデルバリアント（PVとV）をトレーニング。 • 単一モデルの結果が上段 • Social GANにて行われた定量評価手法と同様に、同一モデルをランダム初期化でトレーニングした20の結果の中で最良の精度を表示しているのが下段 • 「ADE」列、「FDE」列は、軌跡の誤差 • 「move_ADE」列、「move_FDE」列は、行動アクティビティ（歩く、走る、バイクに乗る）のみを対象とした場合の誤差を表示。 23

24.

４. 実験結果定量的評価（ETH/UCY データセット） • ETHと、ETH＆UCYの平均スコアにおいて最も優れた性能が得られた。 • HOTELとZARA2は特に、特に優れた結果を得られた。 • これら２つのシーンにおける各瞬間における平均移動は、それぞれ0.18および0.22であり、他のシーン ZARA1:0.389、ETH:0.460、UNIV:0.258 より低い。 • 動きの小さい(遅い)軌跡に対してより良いパフォーマンスを示したが、動きの大きな(速い)の軌跡に対しては差が少ない。 ETH UCY 24

25.

４. 実験結果定量的評価 • アブレーション実験を行い、それぞれの手法の効果・影響を評価 • 各手法について、精度向上に影響を与えていることを確認行動特徴に対するアブレーション人物特徴に対するアブレーション 25

26.

４. 実験結果定性的評価 • 黄色：過去の軌跡、緑色：Ground Truth、予測：青いヒートマップとして表示。 • 本研究の手法は、将来の活動を予測し、テキストとポーズテンプレートにて表示。 • 特に、動きを加速しようとしていた右側の2人の人について、より正確な軌跡を出力。 26

27.

４. 実験結果定性的評価 • a,b は成功例。 • c は、車と人との関係を正確に捉えられていない（車のドアを開けると予測したが、実際には車の横を通過） • d は、人同士の関係を正確に捉えられていない（別々の方向に進むと予測したが、実際は話しながら同じ方向に進行） 27

28.

５. まとめ結論 • 人の将来の経路／軌道を予測するモジュール Next • 将来の「経路」と将来の「活動」を同時に学習することで精度を向上 • ActEV 、UCY&UCYデータセットにおいて、SOTA 28

29.

Appendix 参考文献 • [1]A. Alahi, K. Goel, V. Ramanathan, A. Robicquet, L. Fei-Fei, and S. Savarese. Social lstm: Human trajectory prediction in crowded spaces. In CVPR, 2016. • [6]H.-S. Fang, S. Xie, Y.-W. Tai, and C. Lu. RMPE: Regional multi-person pose estimation. In ICCV, 2017. • [7] A. Gupta, J. Johnson, S. Savarese, Li Fei-Fei, and A. Alahi. Social gan: Socially acceptable trajectories with generative adversarial networks. In CVPR, 2018. • [17] J. Liang, L. Jiang, L. Cao, L.-J. Li, and A. Hauptmann. Focal visual-text attention for visual question answering. In CVPR, 2018. • [21]H. Manh and G. Alaghband. Scene-lstm: A model for human trajectory prediction. arXiv preprint arXiv:1808.04018, 2018. 29