1.8K Views
February 12, 20
スライド概要
漫画はイラストと文字によってストーリーを表現したマルチメディアコンテンツであり,日本のみならず世界中で鑑賞される人気のコンテンツである.また,近年ではスマートフォンやタブレットの普及に伴い,漫画をディジタル化した電子コミックとして鑑賞される機会も多くなっている.こうした漫画のディジタル化により,漫画を機械に認識させることで様々な利用方法を提案するサービスが登場しつつある.例えば,漫画の文章を外国語に自動翻訳して閲覧可能にするサービスや,ユーザの好みに合わせた漫画の推薦などが存在する.しかし,こうしたサービスを実現するためには,漫画の画像からキャラクタやテキストといった要素を抽出し,それらの情報をもとに漫画コンテンツの内容について機械が認識する必要がある.このような,漫画画像からキャラクタやセリフのテキストといった要素を自動で抽出し,漫画を機械で処理可能な形式へと変換するといった漫画の自動解析の研究も盛んに行われている.
このような機械による漫画の自動解析の1つとして,漫画内に登場するセリフの発話者を自動で推定する手法が必要とされている.漫画のセリフにもとづいたコマの検索や漫画のシーンの理解のためには,こうしたセリフの自動的な解析が必要であり,OCR(工学文字認識)などの技術によってある程度そのセリフの内容は認識できる.しかし,そのセリフがどのキャラクタの発言であるかについての情報は読み手が判断する必要があり,機械により自動で推定する手法はまだ確立されてはいない.
また,自動推定手法の妥当性を評価するためには,漫画についての大量のデータが必要となる.漫画のデータセットはいくつか存在するものの,セリフの発話者についての情報を持ったデータセットは存在しないという問題がある.
そこで本論文では,セリフの発話者であるキャラクタを自動推定する手法の実現に向け,まずは漫画におけるセリフと発話者の正解データを収集したデータセットを構築する.その際,セリフに対応したキャラクタのアノテーション付与を効率的に行うためのアノテーション付与システムを実装した.これにより,109冊の漫画に登場する147,918件のセリフに対して発話者であるキャラクタの対応付けを行なった.また,収集したデータの信頼性を高めるため,1つのセリフに対して2名の協力者がアノテーション付与を行なった.
次に,収集したデータをもとに人手によるセリフと発話者の対応付けについて分析を行う.1つのセリフに対して2名のデータ収集協力者が存在するため,この2名の意見が一致しているかを
見ることによって収集したデータの正確さを評価するとともに,人が発話者を判断する際の難易度についても議論する.収集したデータを分析した結果,86%のセリフは意見が一致したが,その他のセリフについては意見が一致しないため,人にとっても発話者の判断が困難なセリフが存在することが明らかになった.これらを踏まえ,実際の漫画の事例をもとにセリフと発話者の推定における課題を「吹き出しの形状」「セリフとキャラクタの位置関係」「セリフの表現とキャラクタの特性」の3つの要因に整理した.
最後に,機械によってセリフの発話者を自動で推定する手法を考案し,データセットをもとに手法の精度を評価した.発話者を推定する手法として,「同じコマ内にいるキャラクタの情報」「セリフとキャラクタの距離の情報」「吹き出しのしっぽの方向の情報」「一人称と語尾の情報」の4つの情報を組み合わせる方法を提案した.推定の結果,全体のセリフに対して70%の精度で発話者を推定することができるという結果が得られた.また,発話者の対象を主要なキャラクタに絞って推定を行なったところ,最大で78%の精度で発話者を推定可能となった.これにより,発話者の手がかりとなる情報を組み合わせることで精度が向上することが明らかとなった.また,キャラクタの特徴とセリフの特徴の一致を見るなど,セリフの内容から得られる手がかりを用いることで推定の精度を向上させられることが示唆された.
明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室
漫画におけるセリフと発話者の 対応付け⼿法の研究 明治⼤学⼤学院 先端数理科学研究科 先端メディアサイエンス専攻 中村研究室 阿部 和樹
背景︓漫画とコンピューティング コンピュータによる漫画の活⽤例 ユーザの好みに合わせた推薦 例)マンガほっと「コレヨモ」 検索・推薦 外国語への⾃動変換 例)Mantra︓マンガの超⾼精度な⾃動翻訳 鑑賞⽀援
背景︓漫画とコンピューティング コンピュータによる漫画の認識 テキスト・キャラクタの位置 漫画画像を対象とした 物体認識 [⼩川 2018] 認識 キャラクタの顔の同定 キャラクタの相関抽出 Creating Character Connections from Manga [Murakami 2011] ストーリーや展開の推定 漫画画像 セリフの発話者の推定 漫画上のキャラクター 識別に関する⼀検討 [⽯井 2013] ・ ・ ・ 低レベルの理解 Comic Story Analysis Based on Genre Classification [Daiku 2011] ・ ・ ・ ⾼レベルの理解
背景︓漫画のセリフとキャラクタ 発話者の推定による漫画の理解 Character Text Text Text Text キャラクタや絵の分析 (画像処理処理) Character セリフ内容の分析 (⾃然⾔語処理) ©⾚松健「ラブひな」
背景︓漫画の⾃動分析 発話者の推定による漫画の理解 「がんばれば必ずできる」 「諦めないでやってみなよ」 「な、なんだなんだ〜」 成瀬川なる 浦島景太郎 登場キャラクタ 「こいつけっこうカワイイ」 登場セリフ 漫画の内容を理解可能か︖
背景︓漫画の⾃動分析 発話者の推定による漫画の理解 成瀬川なる 「がんばれば必ずできる」 「諦めないでやってみなよ」 「な、なんだなんだ〜」 「こいつけっこうカワイイ」 浦島景太郎 機械による漫画の分析には セリフの発話者の⾃動推定が必要 キャラクタの属性や関係性が抽出できる
背景︓関連研究 発話者の推定を⾏っている研究 • Speech balloon and speaker association for comics and manga understanding [Rigaud 2015] • データドリブンなアプローチを⽤いた漫画 画像中の吹き出しの話者推定 [⼭本 2018]
背景︓関連研究 発話者の推定を⾏っている研究 • Speech balloon and speaker association for comics and manga understanding [Rigaud 2015] 吹き出しのしっぽに⼀番近いキャラクタを 発話者として推定 • データドリブンなアプローチを⽤いた漫画 画像中の吹き出しの話者推定 [⼭本 2018] キャラクタの中⼼ しっぽの先端 ©進藤ウニ「⽇常スープ」
背景︓関連研究 発話者の推定を⾏っている研究 • Speech balloon and speaker association for comics and manga understanding [Rigaud 2015] • データドリブンなアプローチを⽤いた漫画 画像中の吹き出しの話者推定 [⼭本 2018] キャラクタとセリフの距離の他に キャラクタの表⽰サイズ・しっぽの⽅向等の情報を加えて推定
背景︓既存⼿法の問題点 既存の⽅法では判定できない例 ©⾚松健「ラブひな」 ©あきづき空太「⾚髪の⽩雪姫」 ©平雅⺒「⿊井⼾眼科」 セリフ内容の特徴など 吹き出しの 遠いキャラクタが 吹き出しがない しっぽがない より多くの⼿がかりが必要 発話者
背景︓漫画のデータセット • ⾃動推定の精度を求めるためには 漫画のデータが必須 • セリフと発話者を⼈⼿で対応づけた 正解データを⽤意する必要がある Character Text Text Text Text Character ©⾚松健「ラブひな」
⽬的 漫画におけるセリフと発話者を対応付けた ⼤規模なデータセットの構築と⾃動推定 • ⼈⼿によってセリフと発話者を 対応付けたデータセットを構築 • セリフの発話者を⾃動で推定する ⼿法の提案と精度評価
データセット構築︓概要 • Manga109 [Matsui 2017] を使⽤ - 109冊の漫画データセット - テキストやキャラクタの 位置等の情報を含む Frame Text Character Text • 147,918件のセリフに対して 発話者の情報を収集する - 収集⽤のWebページを実装 http://www.manga109.org/index.html ©⾚松健「ラブひな」
データセット構築︓概要 めっちゃ多い︕︕ 1冊につき1,300個以上のセリフ Frame Text Character Text • 147,918件 http://www.manga109.org/index.html ©⾚松健「ラブひな」
データセット構築︓アノテーション付与システム 台詞ごとに発話者を選択するタスク → !めちゃくちゃしんどい
データセット構築︓アノテーション付与システム セリフと発話者のキャラクタは 画像上の位置が近いことが多い
データセット構築︓アノテーション付与システム セリフをドラッグアンドドロップでキャラクタまで運ぶ → ! 作業時間を短縮できる
データセット構築︓データ収集 収集結果(収集期間 2019.11.28〜2019.12.25) • 対象︓109冊の漫画・147,918件のセリフ • 協⼒者︓33名 • 1冊に対する協⼒者数︓2名 • データ合計︓297,706件 データ配布⽤Webページ https://nkmr.io/comic/speaker-dataset/
データセット構築︓収集したデータの分析 協⼒者2名の意⾒が⼀致してた数 128,502件 / 147,918件(86.9%) 1ページの平均セリフ数 ≒ 14件 平均すると1ページに1件以上は 発話者の不⼀致があった
データセット構築︓収集したデータの分析 ⼈間にとっても判断が難しい状況が存在する 判断が難しかった例 ©愛⽥真⼣美「魔夜の⾚い靴」 どちらが発話者かわからない ©加藤雅基「ARMS」 近くに発話者がいない
データセット構築︓正解データ • 2名の意⾒が⼀致していた128,502件 のデータを正解データとする • ⾃動推定における精度の評価に利⽤
発話者⾃動推定︓⼿法 発話者を判断する4種類の⼿がかり ①距離 ③しっぽ⽅向 ②同じコマ ④⼀⼈称・語尾 ©島崎 譲, 鷹 司「花影戦記 妖魔降臨」
発話者⾃動推定︓⼿法 発話者を判断する4種類の⼿がかり ①距離 ③しっぽ⽅向 ②同じコマ ④⼀⼈称・語尾 近いほど発話者の 可能性が⾼い ©島崎 譲, 鷹 司「花影戦記 妖魔降臨」
発話者⾃動推定︓⼿法 発話者を判断する4種類の⼿がかり ①距離 ③しっぽ⽅向 ②同じコマ ④⼀⼈称・語尾 セリフと同じコマ に発話者がいる ©島崎 譲, 鷹 司「花影戦記 妖魔降臨」
発話者⾃動推定︓⼿法 発話者を判断する4種類の⼿がかり ①距離 ③しっぽ⽅向 ②同じコマ ④⼀⼈称・語尾 しっぽが向いた先 に発話者 ©島崎 譲, 鷹 司「花影戦記 妖魔降臨」
発話者⾃動推定︓⼿法 発話者を判断する4種類の⼿がかり ①距離 ③しっぽ⽅向 ②同じコマ ④⼀⼈称・語尾 ©島崎 譲, 鷹 司「花影戦記 妖魔降臨」
発話者⾃動推定︓⼀⼈称・語尾 「どうかわたしと⼀緒に江⼾城へ︕︕」 「おれたちの⼀族には…」 「おれに能⼒がないのは本当なんだよ」 「わたし」の候補 「おれ」の候補 「わたしたちの国では…」 「そのとおりですわ」 距離・同じコマ・ しっぽ⽅向による推定 語尾「ですわ」の候補 事前に推定した結果を新たな⼿がかりにする
発話者⾃動推定︓⼿法 正規化したスコアの合計で判断 ・・・ 対象のセリフ 距離 0.4 0.4 0.2 同じコマ 0.5 0.5 0.0 しっぽ⽅向 1.0 0.0 0.0 ⼀⼈称・語尾 0.5 0.0 0.5 ・・・
発話者⾃動推定︓設定 • 機械が予め知っている情報 - コマ・キャラクタ・セリフの位置 - キャラクタの名前 - セリフの⽂字列 • 1冊につき5名の主要キャラクタに限定 - 88,297件のセリフが対象 • 発話者であるキャラクタの正解率で 精度を評価
発話者⾃動推定︓結果 セリフ件数︓88,297件 単独の正解率 組み合わせの 寄与率 ①距離 66.9% 24.0% ②同じコマ 46.1% 6.7% ③しっぽ⽅向 14.6% 1.8% ④⼀⼈称・語尾 6.0% 0.6% ⼿法 組み合わせ 78.6%
発話者⾃動推定︓結果 セリフ件数︓88,297件 ⼿法 ①距離 単独の正解率 組み合わせることで 66.9% 正解率がどれだけ上昇するか︖ 組み合わせの 寄与率 24.0% ②同じコマ 46.1% 6.7% ③しっぽ⽅向 14.6% 1.8% ④⼀⼈称・語尾 6.0% 0.6% 組み合わせ 78.6%
発話者⾃動推定︓結果 セリフ件数︓88,297件 単独の正解率 組み合わせの 寄与率 ①距離 66.9% 24.0% ②同じコマ 46.1% 6.7% ③しっぽ⽅向 14.6% 1.8% ④⼀⼈称・語尾 6.0% 0.6% ⼿法 組み合わせ 78.6%
発話者⾃動推定︓結果 ⼀⼈称・語尾による推定 正解率︓6.0% 寄与率︓0.6% 5,291件のセリフが正解 組み合わせることで 新たに530件のセリフが正解 ©南澤久佳「魔法使い養成専⾨マジックスター学院☆☆☆」 ⼀⼈称による推定が無いと左の⼥性で推定されていた
発話者⾃動推定︓結果 ⼀⼈称・語尾による推定 正解率︓6.0% 寄与率︓0.6% 5,291件のセリフが正解 組み合わせることで 新たに530件のセリフが正解 ©⼋神 健「密・リターンズ︕」 語尾「じゃ」により,遠くにいるキャラクタを推定できた
発話者⾃動推定︓結果 ⼀⼈称・語尾による推定 正解率︓6.0% 寄与率︓0.6% 5,291件のセリフが正解 組み合わせることで 新たに530件のセリフが正解 ⼀⼈称や語尾から 「男性」っぽさ,「おじいちゃん」っぽさといった キャラクタの特徴を抽出できていた ⼀⼈称・語尾が含まれるセリフ数︓7,364件(10%未満) 有⽤だが出現頻度が低い ⼿がかりだった 5,291件 / 7,364件 = 71.8%のセリフは正解
発話者⾃動推定︓考察 • 「距離」「同じコマ」「しっぽ⽅向」「⼀⼈称・ 語尾」の推定を組み合わせると78.6%の精度 ⾼精度ではないが⼿がかりを組み合わせる ことの有⽤性は⾒られた • 「⼀⼈称・語尾」による推定精度は6.0%,それらの 単語が登場するセリフに対しては71.8%の精度で 推定可能 セリフの内容から得られる⼿がかりは有⽤だが より多様な⼿がかりが求められる
発話者の⼿がかりの例 ©草⽔敏/恵三郎「 フラジャイル 病理医岸京⼀郎の所⾒」 セリフから得られる感情と キャラクタの表情の⼀致
応⽤ 発話者推定の具体的な応⽤例 キャラクタやその感情に 合わせた翻訳が可能になる 男性っぽさやたよりなさげさ等 例)Mantra: マンガの超⾼精度な⾃動翻訳 ©⾚松健「ラブひな」
まとめ ⽬的 セリフと発話者を対応付けたデータセットの 構築と機械による⾃動推定 109冊に登場する14,718件のセリフに対して データセット 2名以上が発話者アノテーションを付与 ⼈にとっても発話者の判断が難しい事例が存在 ⼿法 距離,同じコマ,しっぽ⽅向,⼀⼈称・語尾 の⼿がかりを組み合わせて推定 結果 セリフの発話者を78.6%の精度で推定可能 セリフの内容を⼿がかりにすることの有⽤性 が⽰された