2.3K Views
September 18, 20
スライド概要
コミックのセリフと発話者対応付けデータセットの構築とその困難性
明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室
研究室でアーカイブするため 録画させていただきます 質疑部分は録画しない予定ですが 操作を忘れていたらすみません コミックのセリフと発話者対応付け データセットの構築とその困難性 明治大学 阿部和樹 中村聡史 Mail: [email protected] Web: http://nkmr-lab.org
好きな漫画 • グロ系以外はほぼ全部好き – 読んだ回数が多い漫画は、マスターキートン、 めぞん一刻、スラムダンク? • 最近読んで好きだった漫画 – 葬送のフリーレン – ヘテロゲニアリンギスティコ – 波よ聞いてくれ – ミステリと言う勿れ – 国宝のお医者さん
背景 • 検索、推薦、翻訳、要約、ネタバレ防止、 生成、教育、文化発信など様々な応用に向 けたコミックの理解技術の重要性 • コミックの内容理解のための認識技術 – 登場人物: 顔認識、表情認識、人物推定、骨格 認識、関係性推定、重要度推定など – 文字情報: セリフ認識、順序推定、吹き出し形 状認識、話者推定、オノマトペ認識など – 他: コマ推定、シーン推定、一般物体認識など 多種多様な認識・推定技術が必要!
関連研究: 発話者推定 • Speech balloon & speaker association for comics & manga understanding [Rigaud2015] しっぽ ©進藤ウニ「日常スープ」 • データドリブンなアプローチを用いた漫画画像中 の吹き出しの話者推定 [山本 2018]
関連研究: 発話者推定 • Speech balloon & speaker association for comics & manga understanding [Rigaud2015] キャラクタの重心 しっぽの先端 ©進藤ウニ「日常スープ」 • データドリブンなアプローチを用いた漫画画像中 の吹き出しの話者推定 [山本 2018]
認識推定の研究開発に必要なもの • 膨大なデータセット – 機械による学習に利用するため – 認識・推定精度のフェアな数値化のため • すでにあるデータセット – Manga109 [Matsui 2017] – eBDtheque [Guerin 2015] – COMICS [Iyyer 2017]
Manga109 Dataset [Matsui 2017] • 109冊の漫画をデータセットとして公開 – アノテーションデータは、コマ、登場人物、セ リフに関する情報 Frame Text Face Text セリフと発話者の対応付けはない ©赤松健「ラブひな」
我々の過去の研究 [阿部 2019] ©赤松健「ラブひな」 機械による自動判定において どんな要素を考慮する必要があるのか? どこにヒントがあるか?なぜ難しいのか? 阿部 和樹, 中村 聡史. 漫画における台詞発話者の自動判定に向けた技術的困難性による整理とデータセット構築手法の検討, 第2回コミック工学研究会発表会, pp.7-14, 2019. https://dl.nkmr-lab.org/papers/208
セリフと発話者と情報デザイン • 同じコマに複数のキャラクタとセリフが存 在している場合、ゲシュタルト心理学を考 慮するとセリフと発話者を近づけたい(近 接の法則)が、時間的な流れの表現も必要 ©草水敏/恵三郎「フラジャイル 病理医岸京一郎の所見」
吹き出しの「しっぽ」 • キャラクタが大勢いても、しっぽによって だれの発言かわかる ©草水敏/恵三郎「フラジャイル 病理医岸京一郎の所見」
セリフとキャラクタの位置関係 B B A A 発話者ごとに 交互に配置 B A B ©緑山のぶひろ「罠ガール」 A
セリフの表現とキャラクタの特性 • 人のキャラクタとAIのキャラクタでフォン トが違う(類同の法則) ©かっぴー/うめ「アイとアイザワ」
これまでの研究 機械判定の難易度に影響する要素 Easy Hard あり なし あり なし 吹き出しの形 キャラクタ固有 同一 発話者の存在 コマ内 コマ外 1人 複数人 or 1人 1つ 複数 近い 遠い 台詞のフォント キャラクタ固有 同一 台詞の方向 キャラクタ固有 同一 台詞の口調 キャラクタ固有 同一 台詞とキャラクタの 見た目の関係 同期 非同期 発話者のヒント あり なし 要素 吹き出しの有無 吹き出しの形状 吹き出しのしっぽ 台詞とキャラクタ コマ内のキャラクタ数 の位置関係 コマ内のセリフ数 発話者と台詞の距離 台詞の表現と キャラクタの 特性
名探偵コナン問題 • 難易度激ムズ ©青山剛昌「名探偵コナン」
漫画のデータセット • セリフとその発話者の正解データが必要 • Manga109データセットを拡張! – セリフの総数: 147,918件 Text Character① Character② ©赤松健「ラブひな」
アノテーション付与システム • 人は自然に発話者を判断できるため素早く アノテーションが付与可能? • 台詞とその発話者は近くにいることが多い – 近くにいるキャラクタとの結びつきを簡単な操 作できるといい ©赤松健「ラブひな」
どのタスクが難しいか [Fitts 1954]
フィッツの法則 D W D T = a + b log 2 ( + 1) W a はデバイス操作に必要な時間 b は目標の距離や大きさが所要時間に与える影響
発話者とセリフの関係 • セリフは発話者の近くに配置されることが 多いため、セリフを近くの発話者にドラッ グアンドドロップ操作ができれば便利! ©赤松健「ラブひな」
アノテーション付与システム ©赤松健「ラブひな」 台詞をドラッグアンドドロップでキャラクタまで運ぶ → 👍 作業時間を短縮できる
アノテーション付与システム • 存在しないキャラクタへの付与 ©赤松健「ラブひな」
今回の成果 • データセットを構築 • データセットの基礎的な分析 – セリフと発話者の関係性と、困難性など • 推定についての分析と考察
データセットを構築しました • 109冊の漫画に登場する147,918件のセリフ に対して2名のアノテータが発話者となるキ ャラクタとの対応付けを行なった – https://nkmr.io/comic/speaker-dataset/ • ご自由にお使い下さい!
データセット構築 • 構築期間 2019.11.28-12.25 – 対象:109冊の漫画・147,918件のセリフ – アノテータ:33名 – 1冊に対するアノテータ数:2名 – データ合計:297,706件
データの分析:一致度 • アノテータ2名の意見が一致していた数 – 全て 132,447件 / 147,918件(89.6%) • 不一致は10.4% – 人物 128,502件 / 147,918件(86.9%)
データの分析:困難性 • • • • • ナレーションとモノローグが判別不可 アナウンスなどその場に発話者が不在 キャラクタが人形や他人に乗り移る 1コマに多数のキャラクタが存在 吹き出しが分割されていない ©加藤雅基「ARMS」
データの分析:困難性 • 途中から読んでもわからな い(1巻がないものなど) – マイクロタスク化するには 工夫が必要? – https://justune.net/
分析推定のための正解データ設定 • 2名の意見が一致しており、発話者がキャラ クタとして存在する128,502件のデータを正 解データとする – ナレーションやモノローグ、ひとでも判断が分 かれた「より困難である」と考えられる計13.1% のデータは今回は対象外とする • 基礎的な分析と、自動推定における精度の 評価に利用
基礎的な分析 • コマ内のセリフとキャラクタの関係性 – あるコマにセリフがあるときの分析 – 注:ナレーションなどは抜かれています
手法:距離 近いほど発話者の 可能性が高い ©島崎 譲, 鷹 司「花影戦記 妖魔降臨」
手法:同じコマ セリフと同じコマ に発話者がいる ©島崎 譲, 鷹 司「花影戦記 妖魔降臨」
手法:しっぽ方向 しっぽが向いた先 に発話者 ©島崎 譲, 鷹 司「花影戦記 妖魔降臨」
手法:一人称・語尾 そのキャラクタの 属性を表す ©島崎 譲, 鷹 司「花影戦記 妖魔降臨」
発話者推定:手法 • 発話者を判断する4種類の手がかり ①距離 ③しっぽ方向 ②同じコマ ④一人称・語尾 ©島崎 譲, 鷹 司「花影戦記 妖魔降臨」
発話者推定:手法 正規化したスコアの合計で判断 ・・・ 対象のセリフ 距離 0.4 0.4 0.2 同じコマ 0.5 0.5 0.0 しっぽ方向 1.0 0.0 一人称・語尾 0.5 0.0 0.0 0.5 ・・・ ©島崎 譲, 鷹 司「花影戦記 妖魔降臨」
発話者推定:設定 • 機械が予め知っている情報 – コマ・キャラクタ・セリフの座標情報 • キャラクタとセリフは中心座標を利用 – キャラクタの名前とセリフの文字列 • 発話者の推定(2パターンを用意) – すべてのキャラクタを対象(全発話者) • 121,364件のセリフが対象 – 5名/冊の主要キャラクタに限定(主要発話者) • 88,297件のセリフが対象 • 発話者の正解率で精度を評価
精度おかしくない?と問い合わせ • 距離による精度が一致しないと問い合わせ をいただいた(東京理科大学大学院の山口 理哉さんよりメール) • 精査すると計算式が間違っていた! – 顔との距離を計算する際、なぜか両方がX座標に なってしまっていた • データを公開していたからこそ、修正いた だけるありがたさ
全発話者推定:結果修正版 セリフ件数:121,364件 手法 単独の正解率 組み合わせの 寄与率 ①距離 74.3 % 33.9 % ②同じコマ 34.5 % 2.8 % ③しっぽ方向 13.5 % 0.7 % 4.8 % 0.3 % ④一人称・語尾 組み合わせ 78.5 %
主要発話者推定:結果修正版 セリフ件数:88,297件 手法 単独の正解率 組み合わせの 寄与率 ①距離 81.0 % 29.5 % ②同じコマ 46.1 % 1.9 % ③しっぽ方向 14.6 % 0.5 % 6.1 % 0.4 % ④一人称・語尾 組み合わせ 84.2 %
主要発話者推定:結果修正版 セリフ件数:88,297件 手法 組み合わせの 寄与率 単独の正解率 組み合わせることで 81.0 正解率がどれだけ上昇するか? % 29.5 % ②同じコマ 46.1 % 1.9 % ③しっぽ方向 14.6 % 0.5 % 6.1 % 0.4 % ①距離 ④一人称・語尾 組み合わせ 84.2 %
主要発話者推定:結果修正版 セリフ件数:88,297件 手法 単独の正解率 組み合わせの 寄与率 ①距離 81.0 % 29.5 % ②同じコマ 46.1 % 1.9 % ③しっぽ方向 14.6 % 0.5 % 6.1 % 0.4 % ④一人称・語尾 組み合わせ 84.2 %
一人称・語尾による推定 ©南澤久佳「魔法使い養成専門 マジックスター学院☆☆☆」 一人称による推定が無いと左の女性で推定されていた 語尾「じゃ」により,遠くにいるキャラクタを推定できた ©八神 健「 密・リターンズ!」
発話者推定:結果 一人称・語尾による推定 正解率:6.1% 寄与率:0.4% 5,408件のセリフが正解 組み合わせることで 新たに353件のセリフが正解 一人称や語尾から 「男性」っぽさ,「ジジイ」っぽさといった キャラクタの属性を抽出できていた 一人称・語尾が含まれるセリフ数:7,364件(10%未満) 5,408件 / 7,364件 = 73.4%のセリフは正解
発話者推定:結果 一人称・語尾による推定 正解率:6.1% 寄与率:0.4% 5,408件のセリフが正解 組み合わせることで 新たに353件のセリフが正解 一人称や語尾から 「男性」っぽさ,「ジジイ」っぽさといった キャラクタの属性を抽出できていた 一人称・語尾が含まれるセリフ数:7,364件(10%未満) キャラクタの属性を 5,408件抽出可能な発話特徴が必要! / 7,364件 = 73.4%のセリフは正解
考察 • 2人では、10.4%のセリフに不一致が発生 – 人を増やし、多数決などを検討するとともに、 どういったものは簡単でどういったものは難し いかなどを明らかにする必要あり – 名探偵コナン問題をどう解決するかの課題 • ナレーションなどを除いても、14.7%のセリ フは、同じコマに発話者が不在 – 色々な手法により判定する必要性 – 作品による偏りなどを分析する必要あり
発話者推定:考察 • 「距離」「同じコマ」「しっぽ方向」「一人称・ 語尾」の推定を組み合わせると84.2%の精度 高精度ではないが手がかりを組み合わせる ことの有用性は見られた • 「一人称・語尾」による推定精度は6.1%,それらの 単語が登場するセリフに対しては73.4%の精度で 推定可能 セリフの内容から得られる手がかりは有用だが より多様な手がかりが求められる
考察 機械判定の難易度に影響する要素 Easy Hard あり なし あり なし 吹き出しの形 キャラクタ固有 同一 発話者の存在 コマ内 コマ外 1人 複数人 or 1人 1つ 複数 近い 遠い 台詞のフォント キャラクタ固有 同一 台詞の方向 キャラクタ固有 同一 台詞の口調 キャラクタ固有 同一 台詞とキャラクタの 見た目の関係 同期 非同期 発話者のヒント あり なし 要素 吹き出しの有無 吹き出しの形状 吹き出しのしっぽ 台詞とキャラクタ コマ内のキャラクタ数 の位置関係 コマ内のセリフ数 発話者と台詞の距離 台詞の表現と キャラクタの 特性
考察 機械判定の難易度に影響する要素 要素 吹き出しの有無 吹き出しの形状 吹き出しのしっぽ Hard あり なし あり 14.6% なし 吹き出しの形 キャラクタ固有 同一 発話者の存在 コマ内 91.5% 1人 37.1% コマ外 8.5% 複数人 or 1人 1つ 複数 近い 81.0% 遠い 19.0% 台詞のフォント キャラクタ固有 同一 台詞の方向 キャラクタ固有 同一 台詞の口調 キャラクタ固有6.1% 同一 台詞とキャラクタ コマ内のキャラクタ数 の位置関係 コマ内のセリフ数 発話者と台詞の距離 台詞の表現と キャラクタの 特性 Easy 台詞とキャラクタの 見た目の関係 同期 非同期 発話者のヒント あり なし
まとめと今後の課題 • 14.8万件のセリフに対して発話者を付与す るデータセットを構築 – 10.4%のセリフはひとによる評価ブレあり – コマ内に発話者がいるのは85.3% – 頻度の高い5人に限定すると距離だけで精度は 66.981.0%、組み合わせで78.684.3%の精度 • 今後の課題 – ひとによる評価ブレは大きく、どういったもの でどの程度ブレるかは今後要検証 – マイクロタスク化可能なセリフなどの検証
アノテーションの重要性 • Manga109を中心としたアノテーション – Manga109を修正可能な仕組み – 各自が構築しているデータセットが効果的に利 用できていないため、Manga109を中心として有 機的に繋がる仕組みの重要性 – アノテーション付与システムの共有化? • Manga109以外を対象としたアノテーション – 各研究室がもつ漫画を、コンテンツを共有する ことなくアノテーションだけ共有可能にしたい • コンテンツ番号とページ番号、座標で紐付ける? • 仕組みがほしいです!!