5.6K Views
March 02, 20
スライド概要
メモの走り書きや筆談などでは手書き文字が崩れてしまうことがあり,その文字を読めるようにしたいという手書き文字の可読化の需要がある.これまでの研究で,不安定な状況下で筆記した崩れた手書き文字のデータセットを構築し,また平均化手法によって文字同士を合成することで,手書き文字を可読化することが可能であることを示した.しかし,平均化に際して,合成する文字によっては,可読化ができないという問題が明らかになった.そこで本研究では,最適な可読化を行うため,文字の崩れ方を文字の縦横比,密集度の2個の指標で定義し,それを補正する文字を選定する補正文字選定手法を提案する.また,評価実験を行い,平均化によって90.5%の文字がきれいになったと評価された.
明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室
平均化による崩れ文字 可読化のための補正文字選定手法 二宮 洸太 (明治大学総合数理学部 3年) 又吉 康綱, 中村 聡史, 掛晃幸, 石丸築 DEIM2020 A2-3
背景 日常生活でよく使う手書き文字 しかし ・人によっては苦手 ・他人に見せることを躊躇う
背景 手書きに関する調査* 恥ずかしいと感じる 64.3% 苦手意識がある 58.0% *株式会社ゼブラ 2014, 2015
背景 手書きに関する調査* 恥ずかしいと感じる 64.3% 苦手意識がある 58.0% 多くの人が手書きに コンプレックスをもっている
実際に文字が崩れるケース メモ書き ・急いで書く ・立ったまま ・電話しながら ・他の文書を見ながら 3.1. 文字認識を利用した予備調査 崩れた文字を様々な文字と平均化し, 複数の平均文字を作成したうえで, その平均化前後の文字を比較することで, 可読化されているものを特定し, 可読化された要因を探る. 調査に使用する崩れた文字は, 過去の研究で構築した崩れた手書き文字データセットから選定する. このデータセットは, 構築する際に制限時間, 手元を見ないという2つの条件下で書いてもらった文字であり, 50種の文字が200字ずつ格納されている. この中から読めない文字を抽出し, 調査に用いる. しかし, 文字数は膨大である上, 人による評価では崩れの客観化をするのが難しい. また, 可読化システムにおいて機会: そこで, 文字の崩れの判断に文字認識APIを用い, 認識できない文字を崩れているとする. 文字認識APIは Nebo社が提供するMyscript[11]を利用した. データセットの全10,000字のうち, 正しく認識できなかった文字は170文字あった. そのうち, 書き損じを除いた141文字を崩れた文字とし, 調査対象として利用する. 4.3. 文字の複雑度 文字はその形状から交差点を持つことが多いことがある. 図9はそれぞれが, 左の文字では交差点が同じ文字であっても交差点の文字のほうが密集しており, 複雑な印象を受ける. そのため, 交差点の多い文字ほど複雑といえ, 交差点が少ないほど, 単純な文字である. よって, 本稿では, これだと画数の多さに見える 複雑度とか何かないか?
動機 崩れた手書き文字を 読めるように支援したい
実現イメージ 崩れた手書き 崩れた手書き
実現イメージ 崩れた手書き 平均化で可読化したものに置き換え 崩れた手書き
実現イメージ 崩れた手書き 崩れた手書き
これまでの研究 平均化手法を用いた手書きの美化を行なってきた 数式化 平均化 手書きを点集合 として取得 スプラインに よって点を補完 フーリエ変換によって ストロークを数式化 文字A 文字B 平均文字
これまでの研究 崩れた手書き文字データセット構築と平均化による可読性向上の検証 [2019] 崩れた手書き文字データセットを構築 崩れた文字への平均化が可読性の向上に寄与することを示した ×20人 ×50種 ×10セット 教業 思私 教 教 崩れた文字データセット
これまでの研究 崩れた手書き文字データセット構築と平均化による可読性向上の検証 [2019] ・組み合わせによっては可読化できない 可読化対象 平均化相手 平均文字
これまでの研究 可読化できるような文字を使用する必要がある 可読化対象 平均化相手 平均文字
本研究の目的 平均化による可読化を実現する 適切な平均化相手の提案 可読化対象 ? 可読化できる 平均化相手 平均文字
アプローチ 1. 崩れた手書き文字に関する予備調査 2. 調査に基づく手書き文字の崩れ方指標の定義 3. 可読化に用いる指標選定に向けたユーザ分析
アプローチ 1. 崩れた手書き文字に関する予備調査 2. 調査に基づく手書き文字の崩れ方指標の定義 3. 可読化に用いる指標選定に向けたユーザ分析
崩れた手書き文字に関する予備調査 崩れた文字を選定 様々な文字と平均化 可読化されたかを判定
崩れた手書き文字に関する予備調査 崩れた文字を選定 様々な文字と平均化 可読化されたかを判定 可読化の要因を考察
崩れた手書き文字に関する予備調査 文字認識APIで 客観的に選定 崩れた文字を選定 様々な文字と平均化 可読化されたかを判定 可読化の要因を考察
崩れた手書き文字データセット ・制限時間, 手元を見ない状態で構築 ・合計10,000データ ×20人 ×50種 ×10セット
崩れた文字の選定 文字認識APIで客観的に選定(誤認識を崩れた文字とする) 正しく認識できなかった170文字のうち, 書き損じを除いた141文字を調査対象とする 動 家 間 数
平均化による平均文字生成 141文字を画数が一致する文字と平均化
可読化の判定 文字認識APIで読める文字を選定 正しく認識された文字を可読化された文字とする 再認識にかけた文字数: 5654文字 正しく認識できた文字数: 4258文字(75%) これらの文字を分析し, 可読化要因を検証
手書き文字の可読化パターン 1. 文字全体のつぶれが修正される 2. 文字の部分的な密集が緩和される
文字のつぶれ修正 横に潰れた文字のつぶれ具合が修正される
文字のつぶれ修正 横に潰れた文字のつぶれ具合が修正される
文字の密集が緩和 部分的な密集が分散し, 緩和
文字の密集が緩和 部分的な密集が分散し, 緩和
文字の密集が緩和 部分的な密集が分散し, 緩和 これらをもとに, 指標を定義
アプローチ 1. 崩れた手書き文字に対する予備調査 2. 調査に基づく手書き文字の崩れ方指標の定義 3. 可読化に用いる指標選定に向けたユーザ分析
手書き文字崩れ指標 1. 手書き文字の縦横比 2. 手書き文字の密集度
手書き文字の縦横比 文字のつぶれを縦横比として表現 外接する長方形の横幅/縦幅の対数 log(W/H)
手書き文字の密集度 密集している → 交差点の数が多い 密集度を交差点の数で定義 密集度: 3 密集度: 5
アプローチ 1. 崩れた手書き文字に関する予備調査 2. 調査に基づく手書き文字の崩れ方指標の定義 3. 可読化に用いる指標選定に向けたユーザ分析
可読化に用いる指標選定に向けたユーザ分析 可読化システムを実装するには どの指標で可読化するかを自動決定する必要がある
可読化に用いる指標選定に向けたユーザ分析 可読化システムを実装するには どの指標で可読化するかを自動決定する必要がある ユーザごとに崩れ方の傾向があれば 崩れ方にあわせた指標で補正できる
ユーザごとの崩れ分析 過去の研究のデータセットの指標値をユーザごと平均 データ数はユーザ1人当たり500文字 文字ごとzスコア化し, 文字の特徴による影響を除外
ユーザごとの崩れ分析 - 結果
ユーザごとの崩れ分析 - 縦横比
ユーザごとの崩れ分析 - 縦横比
ユーザごとの崩れ分析 - 縦横比
崩れ方の顕著なユーザの文字例 - 縦横比 UserK(高い・横長傾向) UserG(低い・縦長傾向)
崩れ方の顕著なユーザの文字例 - 縦横比 UserK(高い・横長傾向) UserG(低い・縦長傾向)
ユーザごとの崩れ分析 - 密集度
ユーザごとの崩れ分析 - 密集度
ユーザごとの崩れ分析 - 密集度
崩れ方の顕著なユーザの文字例 - 密集度 UserF(高い・密集傾向) UserQ(低い・分散傾向)
ユーザごとの崩れ分析 ユーザの文字の崩れ方に 傾向が見られた
可読化アプローチまとめ 可読化された事例から指標を定義 1. 縦横比 2. 密集度 崩れ方にはユーザごとに傾向があった ユーザごと補正指標を決定できる可能性
手書き文字可読化システム 文字認識(通常) 認識できなかった文字 崩れた文字の認識 手書き文字 データベース 手書き文字を データベース に登録 手書き文字 データ 融合相手の絞り込み 補正文字選定手法 融合相手 平均化 置き換え 筆記アプリケーション
手書き文字可読化システム 文字認識(通常) 認識できなかった文字 崩れた文字の認識 手書き文字 データベース 手書き文字を データベース に登録 手書き文字 データ 融合相手の絞り込み 補正文字選定手法 融合相手 平均化 置き換え 筆記アプリケーション
補正文字選定手法 崩れた文字の指標値を補正し, 理想値に近づける ような文字を平均化の相手として選定 理想値 可読化対象 融合相手
補正文字選定手法 崩れた文字の指標値を補正し, 理想値に近づける ような文字を平均化の相手として選定 理想値 可読化対象 融合相手
補正文字選定手法 崩れた文字の指標値を補正し, 理想値に近づける ような文字を平均化の相手として選定 可読化対象 融合相手 可読化された 文字
評価実験 補正文字選定手法の有効性を検証 大学生18名(男性9名, 女性9名)が参加 37種×2指標の74個のタスク 平均化前と2種の平均文字を順位付け評価 データは先述の崩れた文字データセットを使用
評価実験 - 使用文字 平均化対象 37種の文字から指標値が平均から最も 離れている文字を1つずつ選定 平均文字 2指標で補正文字と平均化, 作成
評価実験 - 平均化 縦横比 密集度 補正文字 平均文字 平均化前
評価実験 - 平均化 平均化前 + 平均文字(2種)を順位付け評価 平均化前
評価実験 - 結果 1位~3位を+1~-1で点数化 タスクごと平均をとる 平均化前より高く評価された割合 縦横比 91.9% 密集度 89.2% 全体 90.5%
評価実験 - 結果 1位~3位を+1~-1で点数化 タスクごと平均をとる 平均化前より高く評価された割合 縦横比 91.9% 密集度 89.2% 全体 90.5% 高い精度できれいにできている
今後の展望 1. 可読化システム実装における課題 2. 手書き文字の崩れ方分析
可読化システム実装における課題 1. 書き方一致 2. 高度な補正文字選定 3. きれいな文字の活用
書き方一致 同じ文字でも繋げ方や書き方が異なる 繋げ方が異なる 書き方が異なる
高度な補正文字選定手法 複数選定される可能性がある ・複数の指標で評価 ・ユーザ相性の考慮 など, 利用する特徴量について検討
きれいな文字の活用 補正文字選定は理想値から離れているものを利用 理想値に近い文字は使われにくい 高度な補正文字選定において, 比較対象として利用 可読化された上でよりきれいなものを選定
手書き文字の崩れ方分析 文字の崩れる要因をさらに分析 大区分 小区分 内容 環境要因 コンテキスト ユーザの筆記状態 デバイス デバイスや筆記具 人的要因 静的要因 ユーザの慣れ, 癖 動的要因 ユーザの疲れ, 精神状態
手書き文字の崩れ方分析 - 環境要因 ユーザの筆記環境による崩れ コンテキスト要因 デバイス要因 ユーザの置かれた状況 筆記デバイスやソフトウェア 例) 例) 立った状態, 座った状態 筆記デバイスの違い 筆記端末を持つ, 置く デバイス内筆記領域の大きさ ペン, ペンとデバイスの摩擦
手書き文字の崩れ方分析 - 人的要因 ユーザの文字を書いている時の状態 静的要因 動的要因 ユーザ固有の不変的な要因 ユーザのその時々の状態 長期間変わらない 短期間で変わる 例) 例) 使用デバイスへの慣れ ユーザの疲れ ユーザ自身の文字の癖 精神的な圧迫
手書き文字の崩れ方分析 本稿で用いたデータセット ペンタブを利用 机に置き, 手元を見ない状態 約15cm四方の筆記領域
手書き文字の崩れ方分析 本稿で用いたデータセット ペンタブを利用 机に置き, 手元を見ない状態 約15cm四方の筆記領域 ← 大きい?
手書き文字崩れ比較実験 ・筆記領域のサイズを変える ・制限時間を変える ・複数種類のペンタブで比較 ・フィルム等で摩擦を変える
まとめ ・文字の崩れ方を縦横比, 密集度で定義 ・文字の崩れ方はユーザごとに傾向がある ・指標を用いた補正文字選定手法を提案 ・評価実験では全体で90.5%がきれいに判断された