Webページ上のクリック操作にまつわるBADUIのVLMを用いた改善手法

1.9K Views

March 07, 25

#BAD UI #VLM #ユーザビリティ #UI改善 #アクセシビリティ

スライド概要

Nakamura Laboratory (Meiji University)

@nkmr-lab

スライド一覧

明治大学総合数理学部先端メディアサイエンス学科中村聡史研究室

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

周辺視野に対するぼかしエフェクトが作業時の集中力に及ぼす影響の調査

Nakamura Laboratory (Meiji University) 28.1K

商品選択においてフォントがユーザの選択行動に及ぼす影響の調査

Nakamura Laboratory (Meiji University) 19.6K

手書きとフォントの文字形状の違いによる記憶効果の比較

Nakamura Laboratory (Meiji University) 18.1K

Make-up FLOW 2.0: 美容系YouTuberの化粧フローチャートの共有・取り入れ手法

化粧メイク化粧工程フローチャート美容系youtuber 取り入れ

Nakamura Laboratory (Meiji University) 16.7K

周辺視野における妨害刺激の減衰が集中度に及ぼす影響

Nakamura Laboratory (Meiji University) 15.7K

色覚特性を考慮したゲームの有利不利制御のAmong Usを用いた検証

色覚多様性者模擬フィルタ色のハンディキャップオンラインゲーム

Nakamura Laboratory (Meiji University) 13.4K

各ページのテキスト

Web ページ上のクリック操作にまつわる BADUI の VLM を用いた改善手法明治大学徳原眞彩木下裕一朗中村聡史

背景赤枠部分のみがタップ可能 5

背景ホバーにより色が変わるが文字のみがクリック可能 6

背景赤枠の数字部分クリックにより詳細が確認可能 7

関連研究 UIテストの自動化 • LLMを活用した自動UIテスト「Guardian」を提案[Ranら, 2024] • 動的なタスクを含むUIをカバーしたUI操作の理解能力向上を達成したモデル「GUI-Vid」を提案[Dongpingら, 2024] ユーザの行動予測 • ユーザが要素をタップ可能と認識する確率を予測するモデルを提案 [Swearnginら, 2019] • ユーザが特定の要素を見つけるまでの時間を高精度で予測 [Yuanら, 2020] Ran, D., Wang, H., Song, Z., Wu, M., Cao, Y., Zhang,Y., Yang, W. and Xie, T.: Guardian: A RuntimeFramework for LLM-Based UI Exploration, Proceedingsof the 33rd ACM SIGSOFT International Symposiumon Software Testing and Analysis, pp. 958–970 (2024). Chen, D., Huang, Y., Wu, S., Tang, J., Chen, L., Bai,Y., He, Z., Wang, C., Zhou, H., Li, Y., Zhou, T., Yu,Y., Gao, C., Zhang, Q., Gui, Y., Li, Z., Wan, Y.,Zhou, P., Gao, J. and Sun, L.: GUI-WORLD: A Datasetfor GUI-oriented Multimodal LLM-based Agents (2024).Swearngin, A. and Li, Y.: Modeling Mobile InterfaceTappability Using Crowdsourcing and Deep Learning,Proceedings of the 2019 CHI Conference on HumanFactors in Computing Systems, pp. 1–11 (2019). Yuan, A. and Li, Y.: Modeling Human Visual SearchPerformance on Realistic Webpages Using Analyticaland Deep Learning Methods, Proceedings of the 2020CHI Conference on Human Factors in ComputingSystems, pp. 1–12 (2020). 8

関連研究 UIテストの自動化 • LLMを活用した自動UIテスト「Guardian」を提案[Ranら, 2024] • 動的なタスクを含むUIをカバーしたUI操作の理解能力向上を達成したモデル「GUI-Vid」を提案[Dongpingら, 2024] ユーザの行動予測 UIのデザイナーを支援する研究が多く見られる • ユーザが要素をタップ可能と認識する確率を予測するモデルを提案 [Swearnginら, 2019] • ユーザが特定の要素を見つけるまでの時間を高精度で予測 [Yuanら, 2020] Ran, D., Wang, H., Song, Z., Wu, M., Cao, Y., Zhang,Y., Yang, W. and Xie, T.: Guardian: A RuntimeFramework for LLM-Based UI Exploration, Proceedingsof the 33rd ACM SIGSOFT International Symposiumon Software Testing and Analysis, pp. 958–970 (2024). Chen, D., Huang, Y., Wu, S., Tang, J., Chen, L., Bai,Y., He, Z., Wang, C., Zhou, H., Li, Y., Zhou, T., Yu,Y., Gao, C., Zhang, Q., Gui, Y., Li, Z., Wan, Y.,Zhou, P., Gao, J. and Sun, L.: GUI-WORLD: A Datasetfor GUI-oriented Multimodal LLM-based Agents (2024).Swearngin, A. and Li, Y.: Modeling Mobile InterfaceTappability Using Crowdsourcing and Deep Learning,Proceedings of the 2019 CHI Conference on HumanFactors in Computing Systems, pp. 1–11 (2019). Yuan, A. and Li, Y.: Modeling Human Visual SearchPerformance on Realistic Webpages Using Analyticaland Deep Learning Methods, Proceedings of the 2020CHI Conference on Human Factors in ComputingSystems, pp. 1–12 (2020). 9

本研究での目的サイト上でクリックが出来なさそうなのに実際には可能な要素をユーザに提示する仕組みの実現 → 1. クリック可能性を認知しづらい要素を示す拡張機能の作成 2. 作成した拡張機能の精度の調査 10

対象とするUI Webサイト上のそれぞれの要素のクリック可能性を対象クリック可能要素クリック不可能要素クリック出来そうな要素〇 △ クリック出来なさそうな要素 × 〇 11

対象とするUI Webサイト上のそれぞれの要素のクリック可能性を対象クリック可能要素クリック不可能要素クリック出来そうな要素〇 △ クリック出来なさそうな要素 × 〇 → もう一度探しなおさなければならない 12

10.

ユーザの振る舞いを明らかにするアノテーションや情報共有によるUIの改善 • 使いづらいUIをアニメーションで他者と共有[Hikawaら, 2018] • 改善情報を共有し、自動でUIを改良[Tajimaら, 2020] • クリック可能位置のアノテーションによる機械学習 [Swearngin,2019] → 他人のアノテーションが必要である Deconaby: Animations for Improving Understandability of Web Images. In Human-Computer Interaction. Theories, Methods, and Human Issues: 20th International Conference, HCI International, 2018. Kazuki Tajima, Satoshi Nakamura. WePatch: A System Enabling Users to Improve Bad User Interfaces on the Web, Proceedings of the 29th Australian Conference on Computer-Human Interaction, pp.448 - 451, 2017. Swearngin, A. and Li, Y.: Modeling Mobile InterfaceTappability Using Crowdsourcing and Deep Learning,Proceedings of the 2019 CHI Conference on HumanFactors in Computing Systems, pp. 1–11 (2019). 13

11.

VLMの利用中村聡史. BADUI診療所：カルテ48：人なみに引っかかるAIさん, Vol.26, No.1, pp.22-23, 2024. VLMも人間と同じように分かりづらい説明やUIに対して誤った回答を行うことがある → 人と同じ感覚でUIを認識すると考えられるため VLMを利用したシステムが有用と判断 14

12.

VLMの利用中村聡史. BADUI診療所：カルテ48：人なみに引っかかるAIさん, Vol.26, No.1, pp.22-23, 2024. 15

13.

提案手法 1. 機能利用を検知し，それぞれへコードやスクリーンショットを移行 2. クリック可能位置を取得 3. VLMへクリック可能位置の推測を行うプロンプト共にスクリーンショットを送信し，結果を取得 4. 実際のクリック可能位置とVLMの推定の差分を抽出 5. 差分部分の強調表示を行う 16

14.

提案手法 1. 機能利用を検知し，それぞれへコードやスクリーンショットを移行 2. クリック可能位置を取得 3. VLMへクリック可能位置の推測を行うプロンプト共にスクリーンショットを送信し，結果を取得 4. 実際のクリック可能位置とVLMの推定の差分を抽出 5. 差分部分の強調表示を行う 17

15.

提案手法 1. 機能利用を検知し，それぞれへコードやスクリーンショットを移行 2. クリック可能位置を取得 3. VLMへクリック可能位置の推測を行うプロンプト共にスクリーンショットを送信し，結果を取得 4. 実際のクリック可能位置とVLMの推定の差分を抽出 5. 差分部分の強調表示を行う 18

16.

提案手法 1. 機能利用を検知し，それぞれへコードやスクリーンショットを移行 2. クリック可能位置を取得 3. VLMへクリック可能位置の推測を行うプロンプト共にスクリーンショットを送信し，結果を取得 4. 実際のクリック可能位置とVLMの推定の差分を抽出 5. 差分部分の強調表示を行う 19

17.

提案手法 1. 機能利用を検知し，それぞれへコードやスクリーンショットを移行 2. クリック可能位置を取得 3. VLMへクリック可能位置の推測を行うプロンプト共にスクリーンショットを送信し，結果を取得 4. 実際のクリック可能位置とVLMの推定の差分を抽出 5. 差分部分の強調表示を行う 20

18.

提案手法 1. 機能利用を検知し，それぞれへコードやスクリーンショットを移行 2. クリック可能位置を取得 3. VLMへクリック可能位置の推測を行うプロンプト共にスクリーンショットを送信し，結果を取得 4. 実際のクリック可能位置とVLMの推定の差分を抽出 5. 差分部分の強調表示を行う 21

19.

システム動作イメージクリック可能位置申し込みキャンセルはこちら詳細情報キャンセル条件 VLMの推定位置申し込みユーザへの表示画面申し込みキャンセルはこちら詳細情報キャンセル条件キャンセルはこちら詳細情報キャンセル条件 22

20.

システム動作例 23

21.

拡張機能を用いた調査クリック可能位置が取得できればその全てを提示可能であるが、デザイナーの意図したデザインから離れてしまう可能性がある → 明らかなクリック可能位置を除去するためどの程度システムが推定可能か調査 24

22.

Webサイトのアクセス数TOP30を対象に調査未認識率 = VLMがクリック可能と予測しなかった要素の数実際にクリックが可能な要素の数未認識率 = 314/1075 = 約29% クリック可能要素クリック不可能要素 VLMがクリック可能と予測した要素 71% / VLMがクリック可能と予測しなかった要素 29% / 25

23.

追加検証上手く動作した例 29

24.

追加検証上手く動作した例 30

25.

追加検証上手く動作した例 31

26.

追加検証上手く動作した例 32

27.

追加検証上手く動作した例 33

28.

追加検証予想以上に検出した例赤枠部分をクリック可能と判断 34

29.

考察未認識率は約3割という結果に → プロンプト次第で改善可能と考えられる文言次第で過剰に推定する傾向が見られる → 優先順位や可能性を算出してもらう 35

30.

今後 • システムにより抽出した要素がユーザの振る舞いと一致するか実験 • システムの実用化 • 適切な強調表示の調査 • クリック以外のUIを対象にした調査 37

31.

まとめ背景：使いづらいUIを含むWebサイトが存在する目的：クリック可能と判断するのが難しい要素をユーザに提示提案：クリック可能要素とVLMの差分を示す調査：日本のアクセス数上位30サイトでツールを使用結果：約7割の要素をクリック可能だと推測 38