149 Views
July 17, 19
スライド概要
スポーツのネタバレを防止するTwitterクライアントの開発と諸検討
明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室
twitter: @nakamura [email protected] http://snakamura.org/ スポーツのネタバレを防止する Twitterクライアントの開発と諸検討 中村 聡史,川連一将 (B2) 明治大学総合数理学部 先端メディアサイエンス学科
ネタバレ • コンテンツを楽しみにしているひとびとに とって忌むべきものであり,コンテンツの 楽しみを大幅に減退させてしまうもの 楽しみ度合い ネタバレ
経験ありませんか?
犯人はヤス
検索結果
多くの悲しいネタバラレ過去 • スーパーボウルの試合を録画して楽しみに していたが,mixiで結果を知ってしまう • ツール・ド・フランスを楽しみにしていた のにtwitterでその結果を知ってしまう • F1の結果をニュースサイトで知ってしまう などなど
背景 • 試合時間に講義や打ち合わせなどが入って おり試合をリアルタイムで視聴できない • 放送局の都合でリアルタイム放送されない 視聴するまで情報遮断の必要性
例えば 日本時間の何時に放送されるか ご存知でしょうか?
例えば(いずれも日本時間) • ワールドカップ前哨戦 – 6月3日(火) 10:00~ 対コスタリカ代表 – 6月7日(土) 08:30~ 対ザンビア代表 • ワールドカップ 自宅に帰って録画した番組を – 6月15日(日) 10:00~ 対コートジボワール代表 見るまで情報を遮断したい! – 6月20日(金) 07:00~ 対ギリシャ代表 – 6月25日(水) 05:00~ 対コロンビア代表
ネタバレ防止の特異性 • 少しでも結果がわかってしまうとダメ • 適合率ではなく再現率(網羅率)が重要で あり,再現率100%が望まれる • ひとは気づくが,システムによる判定が難 しい – 「渋谷がお祭り騒ぎに」 – 「サポーター道頓堀川にダイブ」 たまに嘘をついてもらう(結果反転)ことで 心理的にネタバレを回避 [中村 2013] http://www.sibch.tv/share/contents/livecamera/ekimae.html
結果反転手法 • 結果に関する部分を50%の確率で変換 • スコアや順位の数値はランダムに変更 人に疑念を抱かせることでネタバレ防止
関連研究: Twitter Mute Button • Why do people insist on talking about the plot line of ‘24’ when those of us on the West Coast haven’t seen it yet? [Golbeck '12] 今回は,Twitterについて扱う http://www.allaboutseattle.jp/timezone.htm Jennifer Golbeck, The Twitter Mute Button: A Web Filtering Challenge, Proc. of ACM CHI 2012, Pages 2755-2758.
Twitterを遮断したら良い? • Twitterは一種のコミュニケーションツール – メールやLINE,会話などのようなもの – Twitterを遮断することは,つまりコミュニケー ションを遮断することと同義 • ハッシュタグで遮断? – ハッシュタグをしっかり付けて つぶやかれるとは限らない
目的とアプローチ スポーツに関するTwitter上での ネタバレツイートを遮断したい • 一般的なTwitterクライアント上で動作する ネタバレ防止システムの開発 • 墨塗り,結果反転手法を利用した情報の曖 昧化によるネタバレ防止 • ネタバレが頻出するツイート集合からのネ タバレ語の自動抽出
Demo • Janetter のプラグインとして開発 • JavaScript を利用して開発
プロトタイプシステム • ツイートを表示する前に,そのツイートに ネタバレ語が含まれているかどうかをチェ ックし,含まれている場合は情報を曖昧化 – 墨塗りによるネタバレ防止(クリックで表示と いう文章に差し替える) – 結果反転によるネタバレ防止
ネタバレ判定: 正規表現辞書 • ターゲット語(広島,マー君,イチロー, 本田)が含まれており,勝敗にまつわる語 が含まれているツイートをネタバレツイー トとして曖昧化 – 勝敗に関する正規表現辞書を用意し,その辞書 でネタバレかどうかをマッチング – 結果反転辞書を用意し,その結果を反転 辞書である程度対応可能だが,限界がある
ネタバレ判定: 危険語の自動抽 出 • ネタバレツイートが登場するツイート集合 (ハッシュタグで検索されたツイート集合 )に注目し,そこからネタバレ語を自動抽 出 – #sports, #worldcup, #olympic, #carp などなど – あるハッシュタグが付与されたタイムラインで つぶやかれているツイートからホットワードを 抽出して,その語を危険ワードとして登録 – 単語の切り出しは TinySegmenter などを使用 • 危険ワードとは,急に頻度が増えるような
考察 • ツイートは崩れた文章が多いため辞書ベー スのマッチングだけでは難しいことが多い – 口語辞書を登録することで対応可能? • 急激にツイート数が増えることで結果がわ かってしまうこともある
考察: 語の抽出に関する比較検 討 • TinySegmenter – 精度がイマイチ.かなり変な結果がでてしまう • 正規表現 – カタカナ,漢字,英数字,漢字+ひらがなを抽 出 – 精度がそれなりに高い.ただ名詞が抽出される 事が多く,ネタバレに直結しないことも • trigramによりパターン抽出 – メモリ使用量が増大してしまい,クライアント サイドで動作させるには厳しい
考察 • 墨塗りにされている部分が気になる • コミュニケーションツールとして使いたい のであれば,墨塗りされまくっていても大 丈夫?
考察 • ハッシュタグからの辞書自動生成&情報遮 断は精度が今ひとつ – つぶやかれていない言葉は遮断できない – 過去の試合などからの学習が必要? – スポーツに関してつぶやく人を過去のツイート から学習して,その人自体のツイートを遮断?
まとめ • Twitter クライアントにおいてネタバレを防 止する情報曖昧化手法の実現 • 色々な問題,課題を確認
今後の課題 • 日本でオリンピックが開催されるまでには ,SNSなどのコミュニケーション上のネタバ レ防止手法を確立