クラウドソーシングを活用したGUI実験における参加者スクリーニング手法の検証

294 Views

September 03, 25

スライド概要

profile-image

明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

2025.09.04 第214回 HCI研究発表会 クラウドソーシングを活用したGUI実験における 参加者スクリーニング手法の検証 三山貴也 中村聡史 (明治大学) 山中祥太(LINEヤフー株式会社) 1

2.

背景・目的 クラウドソーシング実験 クラウドソーシングで多くの参加者を募集でき、 大規模なサンプルを短期間に収集できる 実験実施者が参加者の状況を確認できないため、 指示を守らない or 不注意な参加者が存在 [Brühlmann+ 2020] 実験データ品質を確保するために 適切なユーザに実験を依頼することが重要 Brühlmann, F., Petralito, S., Aeschbach, L. F. and Opwis, K.: The quality of data collected online: An investigation of careless responding in a crowdsourced sample, Methods in Psychology, Vol. 2, p. 100022 (2020). 2

3.

背景・目的 クラウドソーシングを活用したGUI実験 • 大規模なサンプルを収集でき、発生確率が低い事象の検証に効果的 例)ポインティングタスクのエラー(ミスクリック) [Yamanaka 2021] • クラウドソーシング実験の参加者は、実験室実験の参加者よりも 操作時間が短くエラー率が高い [Findlater+ 2017] 適切な操作を行うユーザに実験を依頼することで データ品質を向上させたい Yamanaka, S.: Utility of crowdsourced user experiments for measuring the central tendency of user performance to evaluate error-rate models on guis, Proceedings of the AAAI Conference on Human Computation and Crowdsourcing, Vol. 9, pp. 155–165 (2021). Findlater, L., Zhang, J., Froehlich, J. E. and Moffatt, K.: Differences in crowdsourced vs. lab-based mobile and desktop input performance data, Proceedings of the 2017 CHI conference on human factors in computing systems, pp. 6813–6824 (2017). 3

4.

アプローチ 実験前の事前タスクによって参加者スクリーニングを行い 本来目的とする実験を適切なユーザ群のみに依頼 事前タスク 主タスク 適切なユーザを抽出 多くのユーザが 実験に参加 適切なユーザが 実験に参加 4

5.

アプローチ 主タスク:ポインティングタスク 5

6.

アプローチ 主タスク:ポインティングタスク ポインティングと関連する操作を含む事前タスクによって 適切な操作を行う参加者をスクリーニングしやすい 6

7.

アプローチ 事前タスク サイズ調整タスク:物理カードとカード画像の大きさを一致させる ディスプレイ画素密度(px/mm)をもとに視覚刺激の物理サイズを統制 Li, Q., Joo, S. J., Yeatman, J. D. and Reinecke, K.: Controlling for participants’ viewing distance in large-scale, psychophysical online experiments using a virtual chinrest,Scientific reports, Vol. 10, No. 1, p. 904 (2020). [Li+ 2020] 7

8.

アプローチ 事前タスク サイズ調整タスク:物理カードとカード画像の大きさを一致させる ディスプレイ画素密度(px/mm)をもとに視覚刺激の物理サイズを統制 [Li+ 2020] 物理カードとカード画像の大きさが一致しているかどうかで 各参加者の操作の正確性を評価できる Li, Q., Joo, S. J., Yeatman, J. D. and Reinecke, K.: Controlling for participants’ viewing distance in large-scale, psychophysical online experiments using a virtual chinrest,Scientific reports, Vol. 10, No. 1, p. 904 (2020). 8

9.

アプローチ 事前タスク • サイズ調整タスクは、本来は視覚刺激の物理サイズを統制する キャリブレーションが目的で、主タスクの前に実施される • これまでに実施されたサイズ調整タスクで、雑な操作を行う参加者が存在 [金谷+ 2024] [宮本+ 2024] サイズ調整タスクによって適切な参加者を抽出できれば キャリブレーションとスクリーニングを1つのタスクで同時に実行できる 金谷一輝,徳原眞彩,三山貴也,木下裕一朗,中村聡史:画像選択肢の段階的表示速度の違いが選択に及ぼす影響, HCS2024-50, Vol. 124, No. 161, pp. 90–95 (2024). 宮本快士,三山貴也,中村聡史,山中祥太:待機画面におけるプログレスバーの進行速度変化が離脱に及ぼす影響, HCS2024-52, Vol. 124, No. 161, pp. 102–107 (2024). 9

10.

これまでの研究 [HCI 211] 事前タスク:サイズ調整タスク、主タスク:ポインティングタスク • サイズ調整タスクで正確な操作を行った参加者は、 ポインティングタスクでも正確な操作を行い、教示に沿った操作を行う傾向 サイズ調整タスクによって 教示を正確に順守して操作するユーザを抽出できる 三山貴也,中村聡史,山中祥太:Web ベースの実験における事前タスクを用いたユーザ分類の検討, 情報処理学会 研究報告ヒューマンコンピュータインタラクション(HCI),Vol. 2025-HCI-211, No. 14, pp. 1–8 (2025). 10

11.

これまでの研究 [HCI 211] 事前タスク:サイズ調整タスク、主タスク:ポインティングタスク • サイズ調整タスクで正確な操作を行った参加者は、 ポインティングタスクでも正確な操作を行い、教示に沿った操作を行う傾向 スクリーニングが実験結果に及ぼす影響について 検証できていなかった サイズ調整タスクによって 教示を正確に順守して操作するユーザを抽出できる 三山貴也,中村聡史,山中祥太:Web ベースの実験における事前タスクを用いたユーザ分類の検討, 情報処理学会 研究報告ヒューマンコンピュータインタラクション(HCI),Vol. 2025-HCI-211, No. 14, pp. 1–8 (2025). 11

12.

今回の研究 スクリーニングの結果で不合格とされた参加者が混入した場合の 実験結果についてシミュレーション • 参加者全体に含まれる不合格の参加者(不合格群)の割合を変化させ、 そのときの実験結果でGUI操作のモデル推定精度を算出 例)不合格群 0% では R^2 = 0.9 だが、不合格群 50% では R^2 = 0.7 に低下 スクリーニングによってモデル推定精度が向上するか検証 12

13.

分析データ 実験概要 これまでの研究の実験データ 分析対象:455人(男性354人、女性101人) Yahoo!クラウドソーシングを通じて、すべての参加者に サイズ調整タスクとポインティングタスクの両方を実施 サイズ調整タスク ポインティングタスク 2回 4セット 13

14.

分析データ サイズ調整タスク 2回のタスクの調整結果の誤差をもとに操作の正確性を評価 • クラウドソーシング実験では参加者ごとにディスプレイ画素密度が異なり、 1回のタスクでは正確に調整を行ったか判断できないため 14

15.

分析データ サイズ調整タスク 調整結果の誤差 サイズ調整結果の誤差の分布 • 各参加者の1回目と2回目の サイズ調整結果の差の絶対値 354人(78%)が 20px 未満 101人(22%)が 20px 以上 15

16.

分析データ ポインティングタスク ターゲット間の距離 • 510px で固定 ターゲットの直径 • 8px, 38px, 78px の3条件 教示を設定 [Yamanaka+ 2023] • 速く :できるだけ速くクリック • 正確に :ミスクリックをしない Yamanaka, S., Kinoshita, T., Oba, Y., Tomihari, R. and Miyashita, H.: Varying subjective speed-accuracy biases to evaluate the generalizability of experimental conclusions on pointing-facilitation techniques, Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems, pp. 1–13 (2023). 16

17.

分析データ ポインティングタスク 1セット15試行のクリックを合計4セット実施 • 各セットでは、ターゲットの直径の3条件が5試行ずつ順番はランダムで出現 • 各セットごとに「速く」「正確に」のどちらかが教示として設定され、 各教示が2セットずつ順番はランダムに出現 17

18.

シミュレーション 分析概要 サイズ調整タスクの結果で不合格とされた参加者が混入した場合の ポインティングタスクの結果についてシミュレーション • 合格群 :2回のサイズ調整タスクの調整結果の誤差が、閾値 T (px) 未満 の操作が正確な参加者 • 不合格群 :それ以外の参加者 18

19.

シミュレーション 分析概要 参加者数が合計 N (人)、閾値が T (px) の状況で、不合格群の割合 X (%) を変化させ、 そのときのポインティングタスクのエラー率について、既存モデルの推定精度を算出 • 実測値とモデルによる予測値を比較してモデル推定精度 R^2 を算出 • 直径 W の円領域 D のクリック成功率 P(D) を予測するモデル [Yamanaka+ 2020] 𝑥2 𝑦2 𝑃 𝐷 =ඵ exp − − ⅆ𝑥 ⅆ𝑦 2 2 2𝜎regx 2𝜎regy 𝐷 2𝜋𝜎regx 𝜎regy 1 𝜎regx , 𝜎regy : 実験で得られる定数 Yamanaka, S. and Usuba, H.: Rethinking the dual gaussian distribution model for predicting touch accuracy in on-screen-start pointing tasks, Proceedings of the ACM on Human-Computer Interaction, Vol. 4, No. ISS, pp. 1–20 (2020). 19

20.

シミュレーション 分析手順 1. 閾値 T (px) によって、すべての参加者を合格群と不合格群に分類 2. N (人) のうち X (%) の人数を不合格群から、残りの人数を合格群から ランダムに抽出して、合計 N (人) の参加者群をつくる 3. 抽出した参加者群のポインティングタスクのエラー率について、 既存モデルの推定精度を算出 4. 2, 3 を 1,000回繰り返し、推定精度の平均をとることで、 参加者数 N、閾値 T、不合格群の割合 X の場合の推定精度とする 20

21.

シミュレーション 分析条件 参加者数 N、閾値 T、不合格群の割合 X を変化させてシミュレーション • N :10, 20, 40, 80人 • T :5px から 50px まで 5px ずつ区切った値 • X :0% から 100% まで 10% ずつ区切った値 例)N = 80 (人), T = 5 (px), X = 10 (%) の場合、 参加者数が合計80人で、閾値を5pxに設定すると、不合格群の割合は10% という参加者群について検証 21

22.

結果 ヒートマップ 参加者数 N=10、教示=正確に 厳 高 モデル 推定精度 R^2 閾値 T (px) 緩 低 少 不合格群の割合 X (%) 多 22

23.

結果 参加者数 N=10、教示=正確に 左上から右下にかけて モデル推定精度が低下 ↓ 閾値を緩く設定した場合に 不合格群の割合が多くなると モデル推定精度が低下 23

24.

結果 参加者数 N=20、教示=正確に 左上から右下にかけて モデル推定精度が低下 ↓ 閾値を緩く設定した場合に 不合格群の割合が多くなると モデル推定精度が低下 24

25.

結果 参加者数 N=40、教示=正確に 左上から右下にかけて モデル推定精度が低下 ↓ 閾値を緩く設定した場合に 不合格群の割合が多くなると モデル推定精度が低下 25

26.

結果 参加者数 N=80、教示=正確に 左上から右下にかけて モデル推定精度が低下 ↓ 閾値を緩く設定した場合に 不合格群の割合が多くなると モデル推定精度が低下 26

27.

考察 閾値を厳しく設定し 不合格群の割合を少なくすると モデル推定精度が向上 参加者数 N=40、教示=正確に ↓ サイズ調整タスクで 適切な操作を行う参加者を 抽出できている サイズ調整タスクによる 参加者スクリーニングが モデル推定精度の向上に寄与 27

28.

考察 参加者数 N を増やすことで モデル推定精度の最大値は向上 N=80では最小値も改善 ↓ 参加者数 N を増やすことで 不合格群の混入による影響を抑制 参加者数 N R^2 最大値 R^2 最小値 10 0.897 0.797 20 0.921 0.735 40 0.959 0.724 80 0.986 0.857 参加者数がモデル評価には十分だが 不合格群の混入による影響を抑制できるほどではない場合 スクリーニングが効果的 28

29.

考察 • 教示=速く の場合にも、同様の傾向がみられた • 操作時間のモデルについてもエラー率と同様の検証を行ったが、 不合格群の割合の変化による影響はほとんどなかった • 操作時間のモデルはエラー率のモデルと比較して、少人数の少ない反復回数でも 十分なモデル推定精度を示す [Yamanaka 2021] エラー率のモデルの検証のように参加者数を多く必要とする場合 スクリーニングが効果的 Yamanaka, S.: Utility of crowdsourced user experiments for measuring the central tendency of user performance to evaluate error-rate models on guis, Proceedings of the AAAI Conference on Human Computation and Crowdsourcing, Vol. 9, pp. 155–165 (2021). 29

30.

今後の展望 閾値 5px、不合格群 0% の場合に 推定精度が最良とはならない 参加者数 N=40、教示=正確に ↓ 実験におけるターゲットの直径の 条件が少ないため モデル評価が厳密でない 条件数や試行数を増やして モデル評価を実施 30

31.

今後の展望 サイズ調整の操作の正確性をもとに適切な参加者を抽出して ポインティングの操作の正確性(エラー率)のモデル推定精度が向上 ↓ 事前タスクが主タスクと異なる場合にもスクリーニングが可能 サイズ調整タスクによるスクリーニングが 他のGUI実験(ステアリングの法則など)にも適用可能か検証 31

32.

まとめ 背景・目的: クラウドソーシングを活用したGUI実験で、 データ品質を確保するために、適切なユーザに実験を依頼したい アプローチ: 実験で要求される操作と関連する事前タスクを用意し、 その結果をもとに適切な操作を行うユーザを抽出 実験・分析: 事前タスク:サイズ調整タスク、主タスク:ポインティングタスク 事前タスクで不合格となった参加者の混入が実験結果に及ぼす影響 をシミュレーションによって検証 結果・考察: 不合格群の割合を少なくすると、GUI操作のモデル推定精度が向上 サイズ調整タスクで適切なユーザを抽出できている 32