>100 Views
May 31, 19
スライド概要
2019/05/31
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Peeking into the Future: Predicting Future Person Activities and Locations in Videos Norihisa Kobayashi http://deeplearning.jp/ 1
書誌情報 タイトル: 著者: Peeking into the Future: Predicting Future Person Activities and Locations in Videos (CVPR2019) (https://arxiv.org/abs/1902.03748) Junwei Liang, Lu Jiang, Juan Carlos Niebles, Alexander Hauptmann, Li Fei-Fei (Google, Carnegie Mellon University, Stanford University) 概要: • 人の将来の経路/軌道を予測するモジュール Next • 将来の「経路」と将来の「活動」を同時に学習することで精度を向上 • ActEV 、UCY&UCYデータセットにおいて、SOTA その他: 特設ページ : https://next.cs.cmu.edu/ GitHub: https://github.com/google/next-prediction 2
アジェンダ 1. 2. 3. 4. 5. 概要 先行研究 提案手法 実験結果 まとめ 3
1. 概要 背景 経路/軌道 予測問題 • 人の将来の経路/軌道を予測したい。 • 経路/軌道予測により、事故警報や自動 運転、スマートロボットなどのアプリケーション を可能にしたい。 • 従来の研究では、人物の特徴量や周りの環 境(車道 or 歩道)の特徴量から経路を 予測している。 過去 未来 現在 • しかし、従来の研究では、それらの行動の意 図はほとんど考慮されていない。 将来の行動は、その行動の目的・意図が分かれば、予測精度が高まるのではないか? 4
1. 概要 提案手法:Next 予測タスク:右上の人の経路を予測する 状態:右上の⼈は箱を運んでおり、左下の 男はその⼈に向かって⼿を振っている。 中央には白い車がある。 • ⼈は目的に応じて異なる経路をたどる 目的①:荷物を運ぶ ⇒緑色の経路が候補に挙がる 目的②:荷物を車に積む ⇒黄色の経路が候補に挙がる 「経路」と「行動」を同時に学習することで、経路予測の精度を高める 5
1. 概要 提案手法:Next • 「経路」と一緒に「行動」を学習する • 映像から得られる豊富な情報を考慮に入れることで、将来の進路だけでなく将来の活動も理解する能力 を向上させる • ストリーミングビデオにおける将来の経路とアクティビティの予測とを合わせた最初の研究 6
2. 先行研究 Social LSTM [Alahi et al., 2016] • 複数の歩行者の移動経路を同時に予測 • 時間的に一致する軌道間で起こる典型的な相互作用を自動的に学習する Social Pooling Layerを提案 - 歩行者は互いの未来の位置を予測し、衝突を避けるために経路を調整するという考えから、相互作用を考慮 - 特定の半径内の全てのLSTMの隠れ状態を一緒にpoolingし、次の時間ステップで入力として渡す 7
2. 先行研究 Social GAN[Gupta et al., 2018] • シーン内のすべての人同士の相互関係を 取り入れた行動予測モデル(Social Pooling Layerは付近の人のみを考慮) • 「平均的なふるまい」ではなく、社会的に 「良い行動」の分布を学習する • 人物同士の相対位置を計算。各人に対 して、位置関係をMLPにかけて、MAX プーリングすることでベクトルPを作成。 8
2. 先行研究 Scene LSTM[Manh et al., 2018] • 静的シーンをマンハッタングリッドに分割し、LSTMを使用して歩行者の位置を予測 9
3. 提案手法 アーキテクチャの全体象 Person Behavior module 人の外観と体の動きの特徴を抽出する。 Person Interaction module 人とその周囲との間のインタラクションを 調べる。 Trajectory Generator LSTMデコーダによって将来の軌跡を予測する。 Activity Prediction 人の将来の位置と活動を予測する。 10
3. 提案手法 アプローチ • • • 人間は、特定の目的を念頭に置いて空間を移動する。 そのような目的は、将来の軌道/進路をかなり方向付ける 可能性がある。 本研究では、 “walk”、 “open door”、 “talk” などの 定義済みの将来の活動ラベルから意図をモデル化する。 本研究で用いているActivity 時間の表記 t=1 過去 現在 1 ~ 𝑇𝑜𝑏𝑠 t = 𝑇𝑜𝑏𝑠 未来 𝑇𝑜𝑏𝑠 + 1 ~ 𝑇𝑝𝑟𝑒𝑑 t = 𝑇𝑝𝑟𝑒𝑑 11
3. 提案手法 Person Behavior Module • シーン内のすべての個人に関する視覚 情報をエンコードする。 • 人の外観と体の動きの特徴を抽出する。 2つのモジュール ① Person Appearance Encoder ② Person Keypoint Encoder 12
3. 提案手法 Person Behavior Module ① Person Appearance Encoder • RoI Alignを用いて人物の領域を抽出。 • 各人物のバウンディングボックスについて、固定 サイズのCNN特徴を抽出する。 • シーン内のすべての人に対して、特徴を抽出し、 それらをLSTMエンコーダに送り、𝑇𝑜𝑏𝑠 × 𝑑 の 特徴量とする(dは、短期記憶のサイズ) セマンティックセグメンテーションの特徴サイズ(64, 36) カーネルサイズ:3、ストライド:2、チャネル数:64 活性化関数:tanh キーポイント数:17 ② Person Keypoint Encoder • MS COCOデータセットでトレーニングされた人のキーポイント検出モデルを使用して、人のキーポイント情報を抽出 • LSTMエンコーダに入力する前に、線形変換を適用してキーポイント座標をエンコード。 • キーポイントエンコーダーにて、 𝑇𝑜𝑏𝑠 × 𝑑 の特徴量とする。 13
3. 提案手法 Person Interaction Module • 人と周囲(オブジェクトとシーン)との間の相互 関係を見るモジュール 2つのモジュール ① Person-Scene Encoder ② Person-Object Encoder 14
3. 提案手法 Person Interaction Module ① Person-scene • • セマンティックセグメンテーションにより、歩道、芝生など、 10種類のラベル付けを行い、CNNで特徴マップを作成。 特徴マップに人の位置を合わせる(図の赤色で表現) • これをLSTMエンコーダに入力し、𝑇𝑜𝑏𝑠 × 𝑑 の特徴量とする。 ②Person-object • 人の位置 (𝑥𝑏 , 𝑦𝑏 , 𝑤𝑏 , ℎ𝑏 ) • 物体の位置 (𝑥𝑘 , 𝑦𝑘 , 𝑤𝑘 , ℎ𝑘 ) • 幾何学的関係 G ∈ 𝑅𝐾×4 (𝑥𝑏 , 𝑦𝑏 ) (𝑥𝑘 , 𝑦𝑘 ) ℎ𝑏 ℎ𝑘 𝑤𝑘 𝑤𝑏 対数関数を使うことで、人間の軌跡は近くの物や人によって影響される可能性が⾼い、という観察を反映 15
3. 提案手法 Visual Feature Tensor Q • これまで抽出した4つの視覚的特徴を、別々のLSTMエンコーダによって同じ次元にエンコード。 ・ 外観(Person Appearance Encoder) ・ 体の動き(Person Keypoint Encoder) ・ 人-シーン間の関係(Person-scene) ・ 人-物体間の関係(Person-object) • 上記4つに加えて、ひとつ前の時刻の軌跡情報を特徴量として与える 𝑊 と 𝑏 は、学習可能なパラメーター • 以上から、M=5のVisual Feature Tensor Q が作成される 𝑄 ∈ 𝑅𝑀×𝑇𝑜𝑏𝑠 ×𝑑 Visual Feature Tensor Qの入力は、 すべて長さ 𝑇𝑜𝑏𝑠 × 𝑑 に統一 Embedding Layer のサイズ𝑑𝑒 : 128 Hidden Layerのサイズ 𝑑 : 256 16
3. 提案手法 Trajectory Generation with Focal Attention • 将来の軌跡を予測する。 • LSTMデコーダーの状態ℎ𝑡 は以下で表現できる : ひとつ前の時刻の軌跡 : 特徴Qの主要特徴を要約した特徴量 17
3. 提案手法 Trajectory Generation with Focal Attention の算出 :attention matrix :sequence attention matrix Mは前述のVisual Feature Tensor の各テンソル 相関行列 𝑆 𝑡 ∈ 𝑅𝑀×𝑇𝑜𝑏𝑠 𝑆𝑖𝑗𝑡 = ℎ𝑇𝑡−1・𝑄𝑖𝑗 を各時刻t において計算。 ←内積より類似性抽出 ※Focal Attentionは、異なる特徴間の相関をモデル化し、それらを低次元の有向ベクトルに要約する。 VQA( FVTA )で利用されていた手法を利用。※参考文献 [17] 18
3. 提案手法 ①Activity location prediction (a) 位置分類 • ビデオフレームを離散化されたh×wグリッド、 すなわちマンハッタングリッドに分割 • 最終位置座標が存在する正しいグリッドブロックを 予想する。(図の青色の四角枠) (b) 位置回帰 • グリッドブロックの中⼼(図の緑色の点)から最終的な位置座標(赤色の⽮印の端)までの差を予測する。 ② Activity label prediction • 𝑇𝑝𝑟𝑒𝑑 におけるアクティビティラベルを予測する。 ※ 将来のアクティビティは、「走る」 + 「運ぶ」など、マルチラベルになることが考えられる 19
3. 提案手法 損失関数 ① ② ③ ①軌跡の誤差 𝑇𝑜𝑏𝑠+1 ~𝑇𝑝𝑟𝑒𝑑 までの真の軌跡と 予測の軌跡との差分(L2ロス) ②位置分類の誤差 真の位置クラスと予測の位置クラスの交差エントロピー誤差 ∗𝑖 𝑐𝑙𝑠𝑔𝑟𝑖𝑑 は、最終位置のグリッドブロックの真のクラス ④ ③位置回帰の誤差 𝐿𝑔𝑟𝑖𝑑_𝑟𝑒𝑔 = 真の位置と予測位置の差分(L2 ロス) ④将来のアクティビティの誤差 真のアクティビティクラスと 予測のアクティビティクラスの交差エントロピー誤差 20
4. 実験結果 実装の詳細 入力 入力動画:1920x1080にリサイズ グリッドスケール:32x18、 16x9 評価指標 ADE(Average Displacement Error) • すべての時点におけるGround Truth座標と 予測座標との間の平均ユークリッド距離 学習 学習率:0.1 ドロップアウト率:0.3 最適化手法:Adadelta Gradient Clipping:10 重みの減衰:0.0001 FDE(Final Displacement Error) • 最終的な時点におけるGround Truth座標と 予測座標との間のユークリッド距離 21
4. 実験結果 データセット ActEV(Activities in Extended Video) • ストリーミングビデオの活動検出研究のために2018 年にNISTによって公開された公開データセット (https://actev.nist.gov/) • VIRAT の改良版 ETH/UCY • 人の歩行軌跡データセット • 鳥瞰視点映像 22
4. 実験結果 定量的評価(ActEV データセット) Linear:線形回帰 LSTM:座標入力のみを持つ単純なLSTM Social LSTM:ガウスパラメータの代わりに軌 跡座標を直接予測するようにsocial LSTMモデ ルを訓練する。 SGAN:Social-GAN。2つのモデルバリアント (PVとV)をトレーニング。 • 単一モデルの結果が上段 • Social GANにて行われた定量評価手法と同様 に、同一モデルをランダム初期化でトレーニングし た20の結果の中で最良の精度を表示しているの が下段 • 「ADE」列、「FDE」列は、軌跡の誤差 • 「move_ADE」列、「move_FDE」列は、行動 アクティビティ(歩く、走る、バイクに乗る)のみを 対象とした場合の誤差を表示。 23
4. 実験結果 定量的評価(ETH/UCY データセット) • ETHと、ETH&UCYの平均スコアにおいて最も優れた性能が得られた。 • HOTELとZARA2は特に、特に優れた結果を得られた。 • これら2つのシーンにおける各瞬間における平均移動は、それぞれ0.18および0.22であり、他のシーン ZARA1:0.389、ETH:0.460、UNIV:0.258 より低い。 • 動きの小さい(遅い)軌跡に対してより良いパフォーマンスを示したが、動きの大きな(速い)の軌跡に対しては差が少ない。 ETH UCY 24
4. 実験結果 定量的評価 • アブレーション実験を行い、それぞれの手法の効果・影響を評価 • 各手法について、精度向上に影響を与えていることを確認 行動特徴に対するアブレーション 人物特徴に対するアブレーション 25
4. 実験結果 定性的評価 • 黄色:過去の軌跡、緑色:Ground Truth、予測:青いヒートマップとして表示。 • 本研究の手法は、将来の活動を予測し、テキストとポーズテンプレートにて表示。 • 特に、動きを加速しようとしていた右側の2人の人について、より正確な軌跡を出力。 26
4. 実験結果 定性的評価 • a,b は成功例。 • c は、車と人との関係を正確に捉えられていない(車のドアを開けると予測したが、実際には車の横を通過) • d は、人同士の関係を正確に捉えられていない(別々の方向に進むと予測したが、実際は話しながら同じ方向に進行) 27
5. まとめ 結論 • 人の将来の経路/軌道を予測するモジュール Next • 将来の「経路」と将来の「活動」を同時に学習することで精度を向上 • ActEV 、UCY&UCYデータセットにおいて、SOTA 28
Appendix 参考文献 • [1]A. Alahi, K. Goel, V. Ramanathan, A. Robicquet, L. Fei-Fei, and S. Savarese. Social lstm: Human trajectory prediction in crowded spaces. In CVPR, 2016. • [6]H.-S. Fang, S. Xie, Y.-W. Tai, and C. Lu. RMPE: Regional multi-person pose estimation. In ICCV, 2017. • [7] A. Gupta, J. Johnson, S. Savarese, Li Fei-Fei, and A. Alahi. Social gan: Socially acceptable trajectories with generative adversarial networks. In CVPR, 2018. • [17] J. Liang, L. Jiang, L. Cao, L.-J. Li, and A. Hauptmann. Focal visual-text attention for visual question answering. In CVPR, 2018. • [21]H. Manh and G. Alaghband. Scene-lstm: A model for human trajectory prediction. arXiv preprint arXiv:1808.04018, 2018. 29