1.9K Views
January 19, 24
スライド概要
スポーツの試合結果のネタバレは,その試合をタイムシフト視聴するユーザにとって観戦の楽しみを減退させるものである.ここで,これまでのスポーツのネタバレ防止研究はテキストに着目したものが主であり,ニュースサイトや SNS に投稿された画像,YouTube のサムネイル画像といった,画像からのネタバレを防止するための手法は確立されていない.そこで本稿では,画像からのネタバレ防止について,まずは YouTube 動画のサムネイル画像に着目し,ネタバレ画像データセットを構築した.また,ネタバレ画像の特徴分析を行い,スポーツのネタバレ画像を判定するため,画像認識をもとにした Non-AI 手法,OpenAI Vision API による Vision-Direct 手法,OpenAI Vision API による画像の言語化にもとづく Vision-Text 手法を提案し,判定精度を比較する実験を実施した.実験の結果,全体としては Vision-Text 手法がもっとも高精度にネタバレ画像を判定できることがわかった.しかし,スポーツの種類によって有効な判定手法は異なることがわかった.
明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室
スポーツにおけるネタバレ画像の データセット構築と判定手法の検討 木下裕一朗(明治大学) 髙久拓海,中村聡史(明治大学) 1
どちらが勝ったか? 2
スポーツのネタバレ問題 スポーツ観戦は世界中で人気 時差などでリアルタイムで視聴することが難しい場合も 試合視聴前にネタバレに遭遇してしまうことがある スポーツナビのトップページ ( https://sports.yahoo.co.jp/ ) Xのトレンド画面 3
スポーツのネタバレ防止研究 • テキストの曖昧化処理によって Web上のネタバレ情報を遮断 [Nakamuraら 2012] • 個人に最適化されたSVMを用いて,野球に関する 投稿に対してネタバレを検出 [Sasanoら 2019] 画像によるネタバレを防止する手法は確立されていない Nakamura, S., Komatsu, T.: Study of information clouding methods to prevent spoilers of sports match. Proceedings of the International Working Conference on Advanced Visual Interfaces, pp. 661-664, 2012. Sasano, I., Morisawa, K., Hirakawa, Y.: Personalized spoiler detection in tweets by using support vector machine. Journal of Advances in Technology and Engineering Research, Vol. 5, No. 5, pp. 219-226, 2019. 4
研究目的とアプローチ 目的 ネタバレ画像が判定可能か検証 アプローチ ネタバレ画像のデータセット構築 ネタバレ画像特徴の分析 提案手法のネタバレ画像判定精度を評価 5
対象画像とその収集 YouTubeのサムネイル画像に着目 野球・サッカー・バスケットボールにおける ハイライト動画のサムネイル画像を収集(計4,531枚) 6
ネタバレ画像の定義 ネタバレの判断基準は人により異なる 先行研究では「試合の最終結果が高い確信度で 予測できてしまう投稿」と定義 [白鳥ら 2018] ネタバレ画像を「試合結果の予想がつく画像」と定義 白鳥裕士, 牧良樹, 阿部和樹, 中村聡史: ネタバレ確信度を考慮した試合実況データセット構築と分析手法の検討. Webインテリジェンスとインタラクション研究会, Vol. 12, pp. 33-38, 2018. 7
ネタバレの度合い 画像によってネタバレ度合いは異なる ネタバレ度合いを以下のように設定 • (試合結果が)わからない • なんとなく予想がつく • 明らかにわかる 8
ネタバレラベルの付与 3名により,実装したウェブシステムを用いて ネタバレラベルを付与 3名それぞれが全データに 対してラベル付与を実施 ラベル付与システム 9
ネタバレ画像データセット ラベルの一致率は0.78 データセット全体に占めるネタバレ画像の割合は0.24 野球 データ数 ネタバレ割合 サッカー バスケ 1,506 1,620 1,405 0.19 0.58 0.20 10
ネタバレ画像と非ネタバレ画像 ネタバレ画像 非ネタバレ画像 11
ネタバレ画像の特徴 • 試合の最終結果が表示されている • 選手の表情が笑顔もしくは吠えている • 選手が喜びや興奮を表現するポーズをとっている • 同一チームの選手が集まって歓喜している 12
ネタバレ画像の判定手法① Non-AI手法 Google Cloud Vision APIのOCR・表情推定機能と, YOLOによる姿勢推定を利用してネタバレ判定を行う OCR 表情推定 姿勢推定 13
ネタバレ画像の判定手法② Vision-Direct手法 OpenAI Vision APIを利用 プロンプトでネタバレ画像の特徴を入力し, ネタバレ判定を行うよう指示 Vision ネタバレ (非ネタバレ) 14
ネタバレ画像の判定手法③ Vision-Text手法 OpenAI Vision APIに画像内容を説明するよう指示 出力された説明文内の単語と辞書のマッチングで判定 Vision 辞書マッチング The image shows … ネタバレ (非ネタバレ) 15
ネタバレ判定の実施(評価実験) 構築したネタバレ画像データセットを用いて ネタバレ判定を行い,各手法の精度を比較 評価指標 正答率: ネタバレか非ネタバレか正しく判定できた割合 再現率: 正解ラベルがネタバレのものを判定できた割合 適合率: ネタバレと判定した中で正解ラベルがネタバレの割合 F値: 再現率と適合率の調和平均 16
全データに対するネタバレ判定結果 正答率 再現率 適合率 F値 Non-AI Vision-Direct 0.50 0.83 0.90 0.72 0.39 0.75 0.55 0.74 Vision-Text 0.85 0.80 0.76 0.78 Vision-Text手法がもっとも高精度 Vision-Direct手法はどの指標においても0.70以上 Non-AI手法は適合率が低い 17
スポーツごとのネタバレ判定結果 野球 サッカー バスケ F値の比較 Non-AI Vision-Direct 0.39 0.57 0.77 0.78 0.35 0.82 Vision-Text 0.65 0.83 0.75 野球・サッカーはVision-Text手法がもっとも高い バスケットボールはVision-Direct手法がもっとも高い サッカーは他スポーツに比べて判定しやすい可能性 18
スポーツによって判定精度が異なる理由 1点の重みが異なる 野球・バスケは点数が入りやすいが,サッカーは入りにくい サッカーでは,得点シーン=ネタバレ 野球・バスケはその他の要因を考慮する必要がある 何点入ったか,試合終盤での得点か,など 19
手法ごとの誤判定原因 ①Non-AI手法 OCRや表情から感情を推定する機能の精度が十分でない 単純な腕の位置関係でポーズ検出をしたことが問題 ②Vision-Direct手法 結果のみを出力するようにしていたため誤判定の原因は不明 20
手法ごとの誤判定原因 ③Vision-Text手法 出力文の文脈を考慮できていなかった On the left side, there is a male basketball player wearing a white jersey with red and yellow details, associated with the Spanish flag, indicating he is likely part of the Spanish national team. His mouth is open as if he's either shouting or celebrating, conveying a sense of intensity or passion. On the right side, there's another male basketball player wearing a navy blue jersey that likely represents the French national team, as suggested by the small French flag colors on the jersey. ネタバレと誤判定された例(正解ラベルは非ネタバレ) 21
データセットの問題 ネタバレラベルの一貫性が十分でなかった ネタバレとラベル付与された画像 非ネタバレとラベル付与された画像 22
今後の展望 Vision-Direct,Vision-Text手法の判定精度向上 Vision-Direct: プロンプトの工夫 Vision-Text: 出力文の文脈を考慮した判定 データセットの改善 ネタバレ判断基準をより明確化しラベルの一貫性を上げる ChatGPTをラベル付与に利用 23
まとめ 背景:画像によるネタバレの存在 目的:ネタバレ画像が判定可能か検証 手法:Non-AI,Vision-Direct,Vision-Text 結果:Vision-Text手法により85%の精度で判定可能 展望:判定手法の改善,データセットの再構築 24