1.5K Views
March 16, 16
スライド概要
アニメのネタバレは視聴者の楽しむを奪う悩ましいものである.本研究ではTwitterのアニメのネタバレ防止を目的としており,ネタバレツイートを判定するために有効な事前処理と単語ベクトル手法を明らかにする.
明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室
Twitterにおけるアニメの ネタバレ防止手法の提案 田島 一樹(明治大学 総合数理学部B3) 中村 聡史(明治大学 総合数理学部, JST CREST)
みなさんはネタバレをされた 経験ありませんか?
ネタバレとは LAWSON ©遊☆戯☆王
新聞の記事でネタバレ LAWSON http://buzz-plus.com www.disney.co.jp 著作者:lwpkommunikacio
Twitterでネタバレ LAWSON ©名探偵コナン ©僕だけがいない街 ©ドラゴンボール
Twitterでネタバレ LAWSON ©名探偵コナン お気に入り作品のネタバレを絶対に 知りたくない人は多くいる ©僕だけがいない街 ©ドラゴンボール
Twitterでネタバレ LAWSON ©名探偵コナン お気に入り作品のネタバレを絶対に ネタバレ防止研究には需要があり, 知りたくない人は多くいる 盛んになりつつある! ©僕だけがいない街 ©ドラゴンボール
d背景 放送時間差によってアニメのネタバレをされる 可能性のある視聴者は全体の70%[田島 2015] 例) www.tvq.co.jp ネタバレ s.mxtv.jp 福岡では平均2.5日遅れで放送
d背景 放送時間差によってアニメのネタバレをされる 可能性のある視聴者は全体の70%[田島 2015] 例) Twitterで起こるネタバレ防止が必要 ネタバレ www.tvq.co.jp s.mxtv.jp 福岡では平均2.5日遅れで放送
関連研究 LAWSON The Twitter Mute Button[Golbeck 2012] ・海外においてもTwitterでのネタバレが問題に ・特定のスポーツやドラマに関する全てツイートの 遮断を目指す ドラマの放送開始時 (放送開始) まさか〜が生きてた なんて!!!! (未放送) ネタバレがTwitter に投稿されてる… 時差3時間
関連研究 LAWSON The Twitter Mute Button[Golbeck 2012] ・海外においてもTwitterでのネタバレが問題に ・特定のスポーツやドラマに関する全てツイートの 遮断を目指す ドラマの放送開始時 (放送開始) ネタバレでない投稿の誤検知が多い まさか〜が生きてた なんて!!!! →日常的なコミュニケーションまで遮断 (未放送) ネタバレがTwitter に投稿されてる… 時差3時間 される可能性が高い
å本研究の目的 Twitterでのアニメのネタバレを防止する ・ネタバレを機械学習により判定する際に有効な 事前処理と単語ベクトル生成手法を明らかにする ・ネタバレ判定を同一作品内で行った場合とジャンル 分けして行った場合のそれぞれの判定のしやすさ, しにくさなどを明らかにする
提案手法 事前処理 正規化 人物名一般化 組み合わせ 単語ベクトル生成 形態素解析 or 係り受け解析 SVMを用いた機械学習 によるネタバレツイート判定
提案手法 事前処理 正規化 人物名一般化 組み合わせ 単語ベクトル生成 形態素解析 or 係り受け解析 どの事前処理と単語ベクトル生成手法の SVMを用いた機械学習 組み合わせが判定に有効か比較,検証 によるネタバレツイート判定
事前処理 ・ベースライン手法:ツイートをそのまま使用 ・正規化手法 勝ったぞおおお!!!!!!! 勝ったぞおおおおおお!! 統一 勝ったぞお! ・人物名一般化手法 城之内死す→重要人物死す 牛尾死す→モブ死す ・正規化,人物名一般化組み合わせ手法 上記2つの手法の処理を同時に実行
形態素解析,係り受け解析 形態素解析 係り受け解析
形態素解析,係り受け解析 形態素解析 係り受け解析
形態素解析,係り受け解析 形態素解析 係り受け解析 単語ベクトル 犯人の/正体は/主人公が/駅前で/会った/おじさんだった/ 犯人の正体は/正体はおじさんだった/主人公が会った/ 駅前で会った/会ったおじさんだった
番組連動ツイート収集と分類 › 12話 ✖ 3000 ✖ 3人 = 件 108000 件 ① アニメ12話選定 ② 実況ツイートを放送開始から 終了まで取得 ③ 1話につき3000件のツイート をランダムで選定 ④ 3人の評価者がネタバレか どうか分類
データセット構築 Twitterにネタバレが含まれていること を想定したデータセット ・ネタバレツイート(正例) 評価者の2/3以上がネタバレと判定 したツイート ・一般ツイート(負例) StreamingAPIでアニメ放送時間外に 全ツイートからランダムに取得したもの
データセット分類 ・同一作品データセット 作品ごとに特有な語があるという問題 ◦1種類の作品 ・ジャンル別データセット アニメジャンルによってどのような出来事が ネタバレになるのか異なるという問題 ◦バトル系作品 ◦ミステリー系作品 それぞれのデータセット ごとに評価実験を行う
評価実験 同一作品 過去の話で学習し,最新話のネタバレ判定 学習用 判定用 学習用 学習用 判定用 anime-charlotte.com
ジャンル別データセット
評価実験 バトル系,ミステリー系 4話中3話を学習に利用し,残った1話のネタバレ を判定 ◦4話分のアニメについて判定し平均精度を算出 ネタバレ判定 学習モデル ©ワンパンマン ©遊☆戯☆王ARC-V ©fate/stay night ©黒子のバスケ
結果(同一作品:形態素解析) 適合率 再現率 適合率が高く,ネタバレの誤検知が少ない
結果(同一作品:形態素解析) 適合率 再現率 4話と7話の展開が異なるため再現率が低い
結果(同一作品:係り受け解析) 適合率 再現率 係り受け解析では少ないデータで多くの 単語ベクトルを生成でき,再現率が高い
結果(同一作品:係り受け解析) 適合率 再現率 ストーリーが進むにつれて展開が 異なってくるため判定が難しくなった
結果(バトル系) 適合率 再現率 「勝った」「死んだ」といった語が共通 して頻出し,再現率がかなり高い
結果(ミステリー系) 適合率 再現率 ミステリーではトリックや作品特有語 が多様であり,再現率がかなり低い
考察 LAWSON ・形態素解析よりも係り受け解析のほうが少ないデータ で多くの単語ベクトルを作成でき,再現率が高かった ・バトル系では「死んだ」「勝った」などの語が頻出 したため再現率が高く,ミステリー系ではトリックな どのバリエーションが多いため再現率が低かった ・登場人物名を一般化し,一般ツイートには含まれない 単語ベクトルを作成したことで精度が向上
s判定失敗ツイートの特徴 同一作品 バトル系 ミステリー系 キャラの正体 キャラの特徴の変化 キャラの正体 キャラの特徴の変化 例)記憶喪失,病んでる ユーザ自身の感情表現 例)やったあああああ トリックに 関する情報 共通して判定失敗 作品に特有な語,専門用語 登場人物名と記号(絵文字)の組み合わせ 例)城之内〜(T ^ T)(T ^ T) キャラ名が名称に置き換えられている 例)博士,妹
今後の展開 LAWSON 判定性能の向上 ・作品ごとの特有語をパターンマッチ ・重要人物を男女区別可能に ・ネタバレデータセットの拡張
まとめ LAWSON ・Twitterのネタバレ判定には人物名一般化手法を 利用し,かつ係り受け解析することが必須 ・同一作品内のネタバレは判定しやすいが,急展開後 や1話目の判定が困難 ・バトル系のネタバレ判定はしやすいが,一方で ミステリー系のネタバレ判定は困難