458 Views
March 17, 25
スライド概要
明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室
コミックにおける読者依存性の高い地雷表現の VLMを用いた自動検出の検討 新嶌道大(明治大学) 櫻井 翼,中川 由貴,中村 聡史(明治大学) 1
背景 人は様々な苦手意識をもつ コミックでは日常生活よりも苦手なものに遭遇しやすい 突然苦手な表現が出てくると,読書意欲が低下する恐れがある 2
読者依存性の高い地雷 SNSなどで苦手な表現を「地雷」と呼ぶことがある 読者依存性の高い地雷とは 読者の苦手意識によって不快に感じて受け入れられず 読むのを避けてしまう描写 3
先行研究 地雷表現に対するアノテーションを共有し,その表現が含まれる ページの直前で警告を出すような手法を実現 [伊藤ら,2022] 虫が 苦手 血が 苦手 伊藤理紗,中村聡史: コミックにおける読者依存性の高い地雷表現回避手法の実現, HCI, Vol. 7, No. 39, pp. 1–7(2022). 4
先行研究 地雷表現に対するアノテーションを共有し,その表現が含まれる ページの直前で警告を出すような手法を実現 [伊藤ら,2022] 虫が 苦手 一度地雷としてのフラグ を付与する必要がある 血が 苦手 伊藤理紗,中村聡史: コミックにおける読者依存性の高い地雷表現回避手法の実現, HCI, Vol. 7, No. 39, pp. 1–7(2022). 5
これまでの研究 Vision APIを用いた地雷表現(虫)の自動検出の試み[Nakagawaら,2024] 誤判定が多く,より高度な分析手法が求められる 視覚的情報に依存しており,検出精度に限界がある Nakagawa, Y., Ito, R. and Nakamura, S.: A Study on Anxiety Reduction of Reader-dependent“Jirai”Expressions in Comics, Procedia Computer Science, Vol. 246,pp. 3918–3927 (2024). 6
目的 コミックのコマに読者依存性の高い地雷が 含まれるかどうかを自動判定する手法の実現 7
対象の地雷表現 アンケート調査の結果,特にグロテスクなものや血液など, 人体にまつわるものを苦手とする読者が多い[伊藤ら,2021] 人体の異常にまつわるものに限定 伊藤理紗,中村聡史: コミックにおける読者依存の地雷 表現に関する基礎検討と軽減手法の検討 DEIM2021, Vol. 11, No. D13-1, pp. 1–8 (2021). 8
対象コミック Manga109データセットの中から人体の異常にまつわる表現を [Fujimotoら,2016] 含むコミック10作品を選定 選定基準:戦闘,怪奇,医療,身体的異常 Fujimoto, A., Ogawa, T., Yamamoto, K., Matsui, Y., Yamasaki, T. and Aizawa, K.: Manga109 dataset and creation of metadata, Proceedings of the 1st international workshop on comics analysis, processing and understanding, pp. 1–5 (2016). 9
人体の異常にまつわる表現の定義 ① 暴力:暴力行為が具体的に描写されておりそれによってダメージが 発生している ② 血:血が人体から出ている,または,体に付着している描写があり かつそれが明確に「血」であると判断できる ③ 人体損壊:現実ではほぼ起こりえない人体の変化が描写されている ④ 死体:明らかに死体であると判断できる状態が含まれている 10
人体の異常にまつわる画像データセット データセット全体のコマ数は9180 人体の異常の割合は4.5% 人体の異常のカテゴリごとのデータ数 暴力 データ数 193 血 人体損壊 130 58 死体 18 11
人体の異常にまつわる画像の判定手法 人体の異常にまつわる表現は,視覚的な要素だけでなく, 物語の文脈 や登場キャラクタの発言が影響を与えることが考えられる © 島崎譲「征神記ヴァルナス」 12
人体の異常にまつわる画像の判定手法 人体の異常にまつわる表現は,視覚的な要素だけでなく, 物語の文脈 や登場キャラクタの発言が影響を与えることが考えられる © 島崎譲「征神記ヴァルナス」 13
人体の異常にまつわる画像の判定手法 人体の異常にまつわる表現は,視覚的な要素だけでなく, 物語の文脈 や登場キャラクタの発言が影響を与えることが考えられる コマ内の内容をVLMを用いて, 言語情報としてテキスト化し, そのテキスト情報をLLMを 用いて判定する 14
手法 コマのテキスト情報を基に3つの手法で判定を行う ①コマ手法 ②ベースライン手法 ③ページ手法 15
①人体の異常にまつわる画像の判定手法 コマ手法K[i] 対象のコマのテキストに加えて,そのコマの直前の数コマの テキストをコンテキストとして与える 直前のコマ数は[i=1,2,3,4,5]の場合を行った 手法により利用 コマ数が異なる n-1 n n-3 n-2 VLM LLM text(n) text(n-1) 判定結果 text(n-i) 16
②人体の異常にまつわる画像の判定手法 ベースライン手法 対象とするコマのテキストのみをもとに,その表現の有無を判定 n-1 n n-3 VLM n-2 LLM 判定結果 text(n) 17
③人体の異常にまつわる画像の判定手法 ページ手法 対象のコマのテキストに加えて,1 つ前のページに含まれる すべてのコマのテキストをコンテキストとして与える手法 前ページ n-1 n n-3 n-2 VLM LLM text(n) 判定結果 text(n-2) text(n-3) 18
使用したプロンプト VLM この画像は漫画の一コマです.内容を詳細に説明してください. キャラクタが何をしているか?何をされているか? そして何が映っているかを詳しく出力してください. またオノマトペがあれば出力してください. 特定の表現に偏ることなく,コミックのすべてのコマに 用いることができるもの 19
人体の異常にまつわる判定(評価実験) 構築した人体の異常にまつわる画像データセットを用いて 判定を行い,各手法の精度を比較 評価指標 正答率:人体の異常か非人体の異常か正しく判定できた割合 適合率:人体の異常と判定した中で正解ラベルが人体の異常の割合 再現率:正解ラベルが人体の異常のものを判定できた割合 F値:再現率と適合率の調和平均 20
全データに対する判定結果 再現率はページ手法が最も高い 適合率はページ手法が最も低い コマ手法K1がもっとも精度が高い 21
カテゴリごとの判定結果 各カテゴリの再現率の比較 カテゴリ厳密一致時の再現率の比較 暴力はカテゴリの中で最も検出しやすい人体の異常である カテゴリの判定が容易でない 22
手法の違いにおける精度差において ①ベースライン手法 正答率は高いが,再現率が低い 単一コマのみの判定により文脈不足が考えられる ②コマ手法 直前の一コマをコンテキストとして与えるK1が最もF値が高い コンテキストとして与えるコマ数が増えると再現率は向上するが, 不要な情報混入により,適合率が低下 ③ページ手法 ページ全体の文脈利用により最も再現率が高くなったが,余分な 情報が誤検出を招き 適合率が低下 23
コマ手法で検出できた例 ©花影戦記「花影戦記 妖魔降臨」 24
コマ手法で検出できた例 ©花影戦記「花影戦記 妖魔降臨」 連続するコマ 25
コマ手法で検出できた例 © 正木秀尚「マッド・ストーン」 連続するコマ 26
VLMが正しくテキスト化できなかった例 © 佐々木あつし「ぶらり鉄扇捕物帳」 © 島崎譲「征神記ヴァルナス」 検出できなかった血の表現 © 正木秀尚「マッド・ストーン」 © 西条真二「藤太参ります!」 誤って血の表現と検出されたコマ 27
VLMが正しくテキスト化できなかった例 © 石岡ショウエイ「ベルモンド Le VisiteuR」 検出できなかった人体損壊 28
テキスト判定における誤判定の問題 「血」や「死体」といった単語が 含まれる場合,人体の異常と誤判定 セリフとコマの内容を説明 したテキストを明確にする © 石岡ショウエイ「ベルモンド Le VisiteuR」 © 佐々木あつし「ぶらり鉄扇捕物帳」 29
今後の展望 誤判定の改善 血や死体などの単語が原因で誤判定が発生 LLMプロンプト設計で,コマ描写の説明と文字情報を明確に区別する 文脈情報の拡大 前後両方のコマを活用することで,検出精度のさらなる向上を期待 他の地雷表現への応用 人体の異常に限らず,別の地雷表現への適用可能性 30
まとめ 背景:読者依存性の高い地雷の存在 目的:読者依存性の高い地雷の自動判定をする手法の実現 手法:ベースライン,コマ手法,ページ手法 結果:コマ手法K1が最も高い精度で判定可能 展望:判定手法の改善,他の地雷表現への応用 31