327 Views
November 11, 15
スライド概要
アニメやドラマなどのストーリーコンテンツに関してSNSで発信されるネタバレ情報は,本来作品を通して体験する はずだった興奮や感動的な体験を無くしてしまうものである.そこで本研究では,ストーリーコンテンツに限定し, ネタバレ情報を遮断する手法の検討を行う.ここでは人々が特に致命的なネタバレであると考えるものを調査し,そ こからネタバレ情報をカテゴリ分けした.また,この各カテゴリに対するSVMでのネタバレの推定可能性について実 験を行い,明らかにする
明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室
ストーリーコンテンツに対する ネタバレの基礎調査とその判定 手法の検討 田島 一樹(明治大学 総合数理学部B3) 中村 聡史(明治大学 総合数理学部, JST CREST)
本研究での貢献 1. 放送時間差によって視聴者の70%はネタバレをさ れてしまう可能性があることが明らかに 2. アニメのネタバレを345件収集、それらを12種類 にカテゴリ分けし、その中から「正体・生死・勝敗 人物特徴」に関する情報を致命的なネタバレとする 3. 勝敗のネタバレの推定は容易であり、正体のネタ バレの推定は困難であることが明らかに
背景 ・気になっていた黒幕の正体に関する情報をネット 上で発見してしまった ・登場人物が死ぬかどうかのハラハラする展開だっ たのに次回予告で結末が分かってしまう 嘘でしょ!? 〜が犯人!? 【悲報】〜が黒 可愛い顔してな んてことを… まだそこ見て ない!!!💢 ネタバレ防止の必要性 が生じている!!
Twitter上のネタバレ ・リアルタイムでアニメを見ながら実況する人 →Twitterに突然アニメのネタバレが流れてくる 例)アニメの出来事に対する投稿
考えられる対策① ・そもそも番組を観るまではTwitterなどのSNS を使わない Twitterは友人・知人とのコミュニケー ションや情報収集(ニュースなど)のための ツールとして必要不可欠なので非現実的
考えられる対策② ・ハッシュタグ付きの投稿をブロック ・何の話題か明示 ・他の投稿も検索 可能 ハッシュタグを付けずに 投稿する人も多く、不完全
考えられる対策③ The Twitter Mute Button[Golbeck 2012] •海外における時差によって生まれるTwitter上での ネタバレを問題に •スポーツやドラマに関する投稿内の単語を登録し、 それらが含まれる投稿をミュートすることでネタ バレを防止 ネタバレでない投稿までブロックする 例)ドラマの放送が (放送中の地域) 始まると… まさか〜が生きてた →日常的なコミュニケーションまで妨げ (未放送の地域) 時差3時間 られてしまう可能性が高い ネタバレがTwitter に投稿されてる… なんて!!!!
ネタバレに対する反応 個人的な事情 放送局毎の放送日時の違い
研究目的 1. 放送時間差によりネタバレされる可能性 がある視聴者の規模を明らかにする 2. アニメにおける致命的なネタバレを明らか にする 3. 致命的なネタバレの判定がどの程度できる かを明らかにする
1. 放送時間差によりネタバレされ る可能性がある視聴者の規模の調査
放送時間差の原因 ・アニメ番組は深夜帯に放送されるため、放送局 による放送時間のバラつきが多い ・番組を放送する局が少ない地域が存在する
調査方法 ・アニメ20本(2015年放送開始)を無作為に選定 ・各アニメの番組名・放送局・放送時間を取得 ・放送局が放送する地域の世帯数を取得 例)番組名:俺物語!! 日本テレビ:04/08(水) 25:29〜 ミヤギテレビ:04/17(金) 25:57〜 世帯数:90.2万世帯 など
調査結果 リアルタイム放送:2133万世帯 放送時間差あり:4984万世帯 ネタバレをされる可能性の ある視聴者は全体の70%
岐阜県高山市の場合 リアルタイムで放送しないアニメ (2015年6、7月放送開始) →11個のうち5個 平均3.6日遅れ
2. ストーリーコンテンツにおける 致命的なネタバレとは?
ネタバレの基礎調査 ・ネタバレの収集 ・ネタバレ投稿サイト(http://netabare.meguri.org/) と学生100名以上に対するアンケート結果を利用 ・126個のアニメにおけるネタバレを345件収集 ・収集したネタバレの分析 投稿されたネタバレの例 ・分析の結果、下の12種類のカテゴリのように分類。 ・巨人に食べられたエレンは生きてた それぞれの投稿件数をカウント (進撃の巨人) ・フリーザがサイボーグ化して復活 正体/生死/人間関係/人物特徴/仕掛け/目的/ (ドラゴンボールZ) 勝敗/問題発生/過去/登場/地位・権力/作品の展開
各カテゴリの投稿数
4カテゴリ 正体 生死 これら4つのカテゴリを致命的な ネタバレとして判定対象に!! 勝敗 人物特徴
3.致命的なネタバレの判定 がどの程度できるのか?
評価用データセット構築 ・カテゴリごとに4作品ずつ選定 例)コナン→主人公が犯人を暴く ・アニメに対するハッシュタグの指 定し、各作品のツイートを収集 #conan, #jojo̲animeなど ・著者が各カテゴリに該当するネタ バレかそうでないかを分類し、投 稿にフラグ付け
判定の手順 ネタバレとなる投稿→正例 ネタバレにならない投稿→負例 1. 正例、負例に分類したツイートを 単語ベクトル化 2. 各カテゴリにおけるSVMの分類 器を作成し、ネタバレかどうかの 判定をする
単語ベクトルの生成 ・収集したツイートを形態素解析(Mecabを使用) ・形態素に対しIDを割り当て、1行内での出現回 数を記録
単語ベクトル生成手法 ・単語ベクトルの生成時に形態素の処理を行う によって精度の向上を図る3つの手法を提案 ・ベースライン手法 ・正規化手法 ・人物名の一般化手法
ベースライン手法 ・品詞は名詞、動詞、形容詞、副詞、連体詞 の5つを利用 ・活用形のある単語は全て原形に置換 例)死な 死に 死ぬ 死ぬ
正規化手法 Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! [Brody 2011] ・投稿者が自身の感情の強さを表すために一部 が連続している単語を原形に戻す手法を提案 連続している文字 1文字に置換 「!!!!!」 「!」 「やったあああ」 「やったあ」 「wwww」 「w」
人物名の一般化手法 ・登場人物名が作品や話数ごとに大きく異なる 主要人物 ・ヤムチャ敗れる!!!(ドラゴンボール) 主要人物 ・ジョジョ敗れる!!!(ジョジョの奇妙な冒険) 登場人物名を一般的な語に置換 悟空、ベジータ、フリーザ ウーロン、ランチ、ゴズ 「主要人物」 「モブ」
評価実験 ・各カテゴリで選定した4つのアニメの内3つを 学習用、残り1つを評価用に ・4回検定を行い推定平均を出す (4-Fold Cross-Validation) 例)正体に関するネタバレなら 推定精度を算出 学習用 評価用
判定精度の算出 評価尺度は適合率、再現率を利用 再現率 適合率
結果(適合率)
結果(再現率)
判定しにくい投稿例 ・正体 スパイ、ストーカー、被害者だった ・生死 良い奴だったよ…、タフすぎるw ・勝敗 敗因、サヨナラホームラン ・人物特徴 パワーアップ、〜モード
結果 ・正体に関するネタバレは判定しづらい ・特徴語となる人物の正体にあたる単語 (特に名詞)が作品ごとに異なることが多い ・勝敗に関するネタバレは判定しやすい ・事実の表現のバリエーションが少ない
考察 ・人物名の一般化手法ではキャラクターの名前 以外のあだ名も網羅することによって精度の 向上が期待できる ・ネタバレとなる投稿に特有な単語が話数ごと に異ならないようにカテゴリ分けを工夫する と高い再現率が期待できる
今後の課題 ・データセット構築の見直し ・著者以外の者との協力 ・データ数を増やす ・精度の低かったカテゴリ分けの見直し ・扱うストーリーコンテンツの量を増やす ・再現率の向上 ・ネタバレ防止のシステムの実装を想定
システム実装の想定 本研究での評価用データセット ネタバレ(アニメ)となる投稿:ネタバレでない投稿 =1:1 ネタバレとなる投稿:通常の投稿=?:? 実際のTwitter上における割合で判定精度を算出
まとめ ・放送時間を考慮したネタバレの防止が必要で あることが明らかに ・人々は正体、生死、勝敗、人物特徴に関する情 報を致命的なネタバレと見なしている可能性が 高いことが明らかに ・話数が異なっても特徴となる単語が似通うカテゴリ は判定しやすく、逆の場合は判定しづらい