4.9K Views
October 23, 23
スライド概要
テニスにおける戦術分析のデータは現状人の手でアノテーションされており負担が大きい.よって本研究ではテニス動画からヒットした瞬間を正確に予測するヒット検出を行うことを目的とする. 先行研究では訓練データとテストデータで同じ環境のデータ使用しており,未知の環境の動画に対して適応されていない.したがって,本研究では実用性を考慮し,多様な環境の動画を訓練することで未知の環境のヒット検出の性能を向上させることを検討する. Transformerには大規模データを使用すると精度向上するという特徴があるため,これを用いることで上記の課題を解決できるという仮説を立てた.よって本研究ではTransformerを使用したActionFormerをモデルとして使用することを提案する. 実験ではテニスコートの手前と奥の選手それぞれでモデルを作成し,動画内ヒット検出の性能をF1値で評価した.先行研究では手前と奥それぞれの選手について0.636,0.538であったが,提案手法では0.762,0.738と精度が10%以上向上する結果となった.
「Transformerを用いた多様なデータに基づく テニスのヒット検出に関する研究」 1
研究背景 2
研究背景: テニスにおける戦術分析の活用事例 ● トッププロの選手の専属スポーツアナリスト ○ ex) ジョコビッチ選手 ● 女子プロテニス(WTA)におけるリアルタイム分析 3
研究背景: 分析データの収集方法 - 手動でアノテーションを行い、正確なデータを収集 - コストや負担が大きい 4
研究背景: 本研究の目指す姿 - 手動でアノテーションを行い、正確なデータを収集 - コストや負担が大きい テニスの分析に使用するデータを 自動で検出し分析が手軽にできる 5
研究背景: テニスの自動分析フロー - 分析結果を出すには様々な情報が必要 ヒット検出 バウンド検出 6
研究背景: ヒット検出の重要性 テニスの分析アウトプット例 - ラリー検出 - 球速 - ボールのプレスメント …. https://ausopen.com/match/2023-nov ak-djokovic-vs-tommy-paul-ms602#!stats よ り 算出するにはヒット検出の情報が欠かせない! 7
研究背景: ヒット検出とは - ラケットとボールが当たった瞬間のフレームを検出 - 打った球種は考慮しない - ストローク、サーブ、ボレー、スマッシュ... 8 8
先行研究とその課題について 9
先行研究: ヒット検出における先行研究[1] - 入力:選手の周辺領域を切り出した連続フレーム画像 - 出力:各フレームのショットが起きた確率(0~1) - nearとfarで別々のモデルを使用 10 [1] Shot Detection in Racket Sport Video at the Frame Level Using A Recurrent Neural Network
先行研究: ヒット検出における先行研究[1]の結果 - 訓練データとテストデータは同じ試合から抽出 - どの環境のデータにおいてもF1値が0.7以上 手前の選手の精度([2]の表8より) 奥の選手の精度([2]の表9より) [1] Shot Detection in Racket Sport Video at the Frame Level Using A Recurrent Neural Network [2] Tennis Shot Detection under Various Environments Using a Human Behavior Recognition Method11
先行研究における課題 訓練とテストに使用するデータの環境が 課題1 同一,もしくは類似している 時系列情報処理にBiLSTMを使用しているが 課題2 適切に系列情報を捉えられていない可能性 12
本研究の問題設定 訓練とテストに使用するデータの環境が 課題1 同一,もしくは類似している 訓練に多様な環境のデータを使用し, 問題設定 テストで未知の環境のデータを使用 13
本研究の提案: Transformer[3]について - 自然言語処理で活躍 - 大量データセットで学習すること により高精度を実現 - 時系列情報処理に優れている Transformerのモデル図([3]の図1より) 14 [3] Attention Is All You Need
本研究の提案: Transformerを使用しヒット検出を行う 訓練とテストに使用するデータの環境が 課題1 同一,もしくは類似している 多様な環境の訓練データを大規模データと 仮説1 捉え精度向上につながるのではないか? 15
本研究の提案: Transformerを使用しヒット検出を行う 時系列情報処理にBiLSTMを使用しているが 課題2 適切に系列情報を捉えられていない可能性 時系列情報を適切に捉えることができ 仮説2 精度向上が見込めるのではないか 16
提案手法 17
ヒット検出の類似タスクにおける研究: ActionFormer[4] - 連続フレームを入力とし,動画中で起きた行動の確率と区間を 予測として出力 - Transformerを使用し,ベンチマークで高い精度 ActionFormerのモデル図([4]の図2より) 18 [4] ActionFormer: Localizing Moments of Actions with Transformers
提案手法: モデル構造 - 先行研究モデルのBiLSTMをActionFormerに変更 - ActionFormerの区間を予測する出力は使用しない 提案手法のモデル図 19
実験 20
データセット: プロ試合動画(TrackNet[5]より) プロの試合動画10試合それぞれラリーで区切られている 今回は選手座標のアノテーションを独自に付与した TrackNetデータセット概要 TrackNetデータセット サンプル画像 21 [5] TrackNet: A Deep Learning Network for Tracking High-speed and Tiny Objects in Sports Applications
データセット: アマチュア試合動画 コートの後ろからスマートフォンで撮影された動画 選手座標とヒットしたフレームをアノテーションした Originalデータセット概要 Originalデータセット サンプル画像 22
実験設定: 実装詳細 - 訓練・テスト分割: テストがgame1,4,6,11でそれ以外を訓練データに使用 - コートの手前と奥の選手それぞれでモデルを作成 - 入力フレームは32で,4フレームずらしながら推論 - 入力画像サイズ: (200, 250) - 後処理: 前後30frameを確認しその中で最大値を取る箇所を残す モデルの推論の様子.横軸は時間軸 23
実験設定: 評価指標 正解frameと予測frameの誤差が1frame以内であれば正解(0.033秒以内) precision, recall, f1で評価 上にある丸が正解で、点線が予測 24
実験1: BiLSTMからActionFormerにすることで精度向上するか? - nearでは12.6%, farでは20%の性能改善 - precison, recall, F1全てにおいてActionFormerが優れている - 誤検出・未検出ともに減っていることがわかる 時系列処理の部分(head)を変更した時の精度 25
実験2: 単一環境から多様な環境にすることで仮説1を検証 - テストをプロ,アマチュアで固定し学習する環境を変化させた アマチュアで多様な環境にすることの恩恵を確認できた 訓練データの環境を変化させた時の精度 26
実験3: 入力系列長を変化させて仮説2の検証を行う - 系列長を32,64どちらの場合でもActionFormerの方が精度高い - precision, recallどちらの指標においてもActionFormerの方が優れ ており,より適切に時系列情報を捉えられていると言える 入力系列長を変化させた時の精度 27
改善例: 2frameずれが1frameずれになる 28
改善例: ショットの確率が正しく出るようになる 29
まとめ 30
まとめ 議論 - ボレー,スマッシュが検出されにくい - カメラの画角から消えた時に大きくずれる - サーブは打ち方によって検出率が変わる - ヒット検出の精度をより高める 今後の展望 - 実際の分析に使用し戦術分析を行う - ヒット検出ができていない箇所をどのように 補っていくのか検討 31
参考文献 [1] Shot Detection in Racket Sport Video at the Frame Level Using A Recurrent Neural Network [2] Tennis Shot Detection under Various Environments Using a Human Behavior Recognition Method [3] Attention Is All You Need [4] ActionFormer: Localizing Moments of Actions with Transformers [5] TrackNet: A Deep Learning Network for Tracking High-speed and Tiny Objects in Sports Applications 32
Q&A 33
補足事項 34
撮影の様子 テニスのコートの後ろから カメラ1台だけ設置して 動画内からhitした瞬間(frame)を検出 1280 * 720 の 30fps動画想定 35
提案手法: モデル構造 - Feature extractor: VGG16の最終層までの特徴量を使用 提案手法のモデル図 36