105 Views
March 24, 17
スライド概要
情報処理学会第101回GN研究会において発表に用いたスライド
明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室
ポケット内のスマートフォンによる 両足ジェスチャ認識手法の提案と分析 田村柾優紀 中村聡史 (明治大学)
デモ 両足のジェスチャによりポケット内の スマートフォンを用いてデバイスを操作
背景 • 手によるデバイス操作に向かない操作や状況, またはそもそも出来ない状況は様々存在 • 手が汚い状況 • 手がふさがっている状況 • 他のものを見ている状況 現在の操作方法では手と目を同時に必要とする
背景(具体例)
背景 センシングに特化したデバイスを用いた行動推定 に関する研究は様々行われている • 加速度センサの定常性判定による動作認識手法 [村尾 2011] • 深度情報を含む映像からの行動認識に関する研究 [神園2013]
背景 センシングに特化したデバイスを用いた行動推定 に関する研究は様々行われている • 加速度センサの定常性判定による動作認識手法 [村尾 2011] これらの研究は手軽さに欠ける • 深度情報を含む映像からの行動認識に関する研究 [神園2013]
スマートフォンの保有率 平成26年度における全体の保有率は64.7% 総務省:http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h27/html/nc111320.html
背景(関連研究) • Sensing Foot Gestures from the Pocket [J.Scott 2010] • • • • 片足のみのジェスチャ認識 ポケット内のスマホの加速度センサでジェスチャ認識 リアルタイムでの認識が出来ていない 前ポケットでの精度があまり良くない
背景 • 両足によるジェスチャ認識がされることで, • 左右の特性を活かした操作が可能になる • 認識可能なジェスチャ数が増える
目的 様々なセンサを組み合わせることにより 両足でのジェスチャ認識を実現 • 角加速度,加速度,音圧センサを組み合わせる ことで,両足のジェスチャ認識の実現 • リアルタイムで用いるため,認識率と認識時間 の両方において,最適なウィンドウ幅の検証
ウィンドウ幅
実装 • デバイス :XPERIA Z4 • 学習データ:各ジェスチャ20個ずつ • ジェスチャ認識時に使用するセンサ • 加速度 :X・Y・Z • ジャイロ :X・Y・Z • マイク音声 :音圧 • 収納場所:前ポケット • サンプリング周波数:約30HZ
使用者 ポケット システム デバイス操作 (ADB経由) 操作対象 スマートフォン タブレット
ジェスチャ認識の流れ 1. ジェスチャを実行 2. 設定した閾値を超えた場合,ウィンドウ幅 分のセンシング 3. そのウィンドウ幅分の値に対して認識手法 (DPMatching・SVM)を用いてジェスチャ認識 4. ジェスチャが認識された場合,ポケット内の 端末自身や他のデバイスを操作
ジェスチャ認識の流れ 1. ジェスチャを実行 2. 設定した閾値を超えた場合,ウィンドウ幅 分のセンシング 3. 角加速度, 加速度, 音のセンシング値の時間変 L/3 2L/3 化に対してDPMatchingによりジェスチャ認識 4.h ジェスチャが認識された場合,ポケット内の 端末自身や他のデバイスを操作 0 -h
ジェスチャ認識の流れ 1. ジェスチャを実行 2. 設定した閾値を超えた場合,ウィンドウ幅 分のセンシング 3. そのウィンドウ幅分の値に対して認識手法 (DPMatching・SVM)を用いてジェスチャ認識 4. ジェスチャが認識された場合,ポケット内の 端末自身や他のデバイスを操作
ジェスチャ認識の流れ 1. ジェスチャを実行 2. 設定した閾値を超えた場合,ウィンドウ幅 分のセンシング 3. そのウィンドウ幅分の値に対して認識手法 (DPMatching・SVM)を用いてジェスチャ認識 4. ジェスチャが認識された場合,ポケット内の 端末自身や他のデバイスを操作
各手法における認識過程 DPMatching 1. 全てのセンサで取得 2. 最大値又は最小値を基に 正規化 3. -1 , -0.5 , 0 , 0.5 , 1に離散化 4. その値を用いてジェスチャ認識 SVM 1. 全てのセンサで取得 2. その値を用いてジェスチャ認識
推定精度の評価実験 両足によるジェスチャ認識が可能かを ジェスチャログを用いて検証 • 使用実験で用いる認識手法を特定のウィンドウ幅 での比較により決定 • 特徴ベクトル,ウィンドウ幅を様々な組み合わせ 同士の比較により決定
評価実験 • 目的:二つの認識手法による比較から本提案シス テムにおいて精度の高い手法の選定を行う • 認識手法: • DPMatching:非線形伸縮マッチング • SVM:機械学習の1種 • 分類クラス:3クラス • 左足の踵の上下運動,右足の踵の上下運動,待機状態 • ウィンドウ幅:30フレーム
推定精度の評価実験 1. データセット構築 2認識手法ごとにF値の算出 2-1. DPMatching 2-2. SVM
データセット構築 • 被験者:8人の大学生 • ジェスチャ:両足の踵の上下運動ランダム150回 • センシング:角加速度3軸,加速度3軸,マイク 音圧,時間情報 • サンプリング周波数:約30Hz • 課題提示時間:1秒間
タスク提示方法 待機画面 タスク提示画面
実験風景
推定精度の評価実験 1 データセット構築 2-1 DPMatchingを用いた際のF値を算出 2-2 SVMを用いた際のF値を算出
F値 • 適合率:当てはまったデータの中で,正しい データの割合 • 再現率:当てはまるべきデータの中で,当て はまったデータの割合 • F値とは,適合率と再現率から以下の様に算出 でき,適合率と再現率をもとにした総合評価 2 × 適合率 × 再現率 𝐹= 適合率+再現率
適合率と再現率 ジェスチャログ • 右足:右足1、右足2、右足3 • 左足:左足1、左足2、左足3 • 待機:待機1、待機2、待機3 判定 • 右足:右足1、右足2、右足3、左足1 • 左足:左足2、左足3、待機1、待機2 • 待機:待機3
適合率と再現率 判定 • 右足:右足1、右足2、右足3、左足1 • 左足:左足2、左足3、待機1、待機2 • 待機:待機3 適合率=(3/4+2/4+1/1)/3=0.75 再現率=(3/3+2/3+1/3)/3=0.67 F値= (2*0.67*0.75)/(0.67+0.75)=0.71
DPMatchingのF値 センサ 角加速度X 角加速度Y 角加速度Z 加速度X 加速度Y 加速度Z 全体平均 ウィンドウ幅(30) 0.6480 0.4836 0.6590 0.6760 0.7277 0.6466 0.6429
SVMのF値 センサ 角XYZ最大最小・加XYZ最小 角XYZ最大最小・加XYZ最大 音圧 角XYZ最大最小・ 加XYZ最大最小・音圧 ウィンドウ幅(30) 0.924 0.918 0.526 0.919
SVMのF値 センサ ウィンドウ幅(30) 角XYZ最大最小・加XYZ最小 0.924 DPMatchingとSVMのウィンドウ幅30の 角XYZ最大最小・加XYZ最大 0.918 結果からSVMの方が高い認識率 音圧 0.526 角XYZ最大最小・ 加XYZ最大最小・音圧 0.919
評価実験 • 特徴ベクトル,ウィンドウ幅を様々な組み合わせ同 士の認識精度の比較により決定 • 認識手法:SVM • 分類クラス:3クラス • 左足の踵の上下運動,右足の踵の上下運動,待機状態 • ウィンドウ幅:6パターン • 15, 20, 25, 30, 35, 40フレーム
SVMによる認識 • 機械学習のライブラリであるLibSVMを用いて実 装 • 標準化したデータを用いた分類器の精度が良く なかったため,今回は未加工のデータを使用 • 角加速度・加速度・音圧の3つのセンサと最大最 小の組み合わせから音圧の最小の組み合わせを 抜いた31パターン
SVMを用いた際のF値 センサ 20 角XYZ最大最小・加XYZ最小 角XYZ最大最小・加XYZ最大 音圧 角XYZ最大最小・ 加XYZ最大最小・音圧 ウィンドウ幅 25 30 35 0.900 0.904 0.521 0.933 0.931 0.527 0.924 0.918 0.526 0.915 0.906 0.492 0.842 0.904 0.919 0.912 角XYZ最大最小・加XYZ最小による推定精度が最も高い傾向
実験結果 • SVMにおけるウィンドウ幅25の角加速度XYZの 最大最小と加速度最小の組み合わせによる推定 精度が最も高い傾向 • 音を組み合わせた場合には,全体としては減少 する傾向にあった.しかし,8人中2人は音を分 類器に加えることで1%前後向上する傾向
使用実験 精度評価での結果を基に 使用実験を行い,有用性の検証 • ページめくりまでにかかる時間,認識精度, 使用感を基にシステムに対する評価を検証
使用実験 • 実験協力者:19~21歳の大学生8人 • クラスタリング手法:SVM • 特徴ベクトル:角XYZ最大最小・加XYZ最小 • ウィンドウ幅:25フレーム • 教師データ:各クラス20個 • ジェスチャ:75回
使用実験 • 約1000冊の漫画の中から読みたい漫画を1冊選 んでもらい,その漫画をシステムにより読書 • 1回のジェスチャを2回のジェスチャとして 処理しないように,約0.67秒間インターバルを 設定 • この情報は伝えずに実験を行った • 認識タイミングについては,設定した閾値を 超えた際に認識を開始
アンケート内容 5段階のリッカート尺度 • 反映までにかかる時間 • 認識精度 • システムの使用感 自由記述 • 体感認識率 • 意見・感想
実験結果(アンケート結果) 実験協力者 時間 認識精度 体感認識 使用感 A B -1.0 -1.0 -2.0 1.0 -1.0 -1.0 85.0% 80.0% 75.0% 1.0 1.0 -1.0 0.0 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 1.0 1.0 1.0 -2.0 -0.13 70.0% 90.0% 90.0% 70.0% 25.0% 73.1% 1.0 1.0 0.0 1.0 -2.0 0.25 C D E F G H 全体
実験結果(自由記述) • 人によって読むペースが違うのでそれを踏まえ たフィードバック時間の設定していてやりにく かった • 連続でページめくり出来ないように設定してい てやりにくかった • フィードバックが欲しかった • レシピ見る時などの短時間での使用の方が 向いている
今後の展望 • 最も精度が高かった他人のデータを転用するこ とで,自分のデータを登録する手間を削減 • 自身のデータや他人のデータを用いたジェス チャで誤検知が起きた場合,動的なデータの 更新により認識精度を維持または改善
まとめ • SVMを用いることで,両足でのジェスチャの 識別がある程度可能であるということを検証 • ウィンドウ幅については25フレームの値の時に 認識精度が高い傾向 • 使用実験からは誤認識自体に不満はなかったが, システムの仕様により認識精度が低下 今後の課題 • 教師データ数による認識精度の検証 • フィードバックの提示方法