2.2K Views
March 01, 24
スライド概要
DL輪読会資料
DEEP LEARNING JP UFO: A UI-Focused Agent for Windows OS Interaction [DL Papers] Tomohiro Yamashita, The University of Tokyo http://deeplearning.jp/ 1
書誌情報 ◼ タイトル: UFO: A UI-Focused Agent for Windows OS Interaction ◼ 著者・所属: • Chaoyun Zhang∗, Liqun Li, Shilin He, Xu Zhang, Bo Qiao, Si Qin, Minghua Ma, Yu Kang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang & Qi Zhang • Microsoft ◼ arxiv: • https://arxiv.org/abs/2402.07939 ◼ Github • https://github.com/microsoft/UFO ◼ 選んだ理由 • 実際に動かしてみると、パソコン上のGUI Agentとして一つ抜けた性能を持つ印象を持ったため。 • AGI(汎用人工知能)関連で気になったため。 ※特に明示がない場合、画像は紹介論文から引用しています。 2
概要 Windows OS上で動作するGUI Agent ・ GUI Agentとは ・ GUIを介してアプリケーションを操作することで、人間が行う動作を自動化するもの ・ 今回の手法(UFO: A UI-Focused Agent for Windows OS Interaction)の特徴 ・ Dual-agent Frameworkで、アプリの選択と操作のAgentを分ける ・ パソコン上のOSデータを入力として取得する 3
関連研究 4 CogAgent ・GUI Agent用に学習された18BのVLM ・Mind2Web, AITWでSOTA ・画面の状態から次の状態に遷移するための動作を画面上の座標付きで出 力する Hong, Wenyi, et al. "Cogagent: A visual language model for gui agents." arXiv preprint arXiv:2312.08914 (2023). MM-Navigator ・GPT-4Vベースのスマホ用GUI Agent ・ボタンや入力フィールドなどに番号を付けた画像をGPT-4Vに入力することで、 その出力と実際の位置を対応付ける(Set-of-Mark Prompting) Yang, Jianwei, et al. "Set-of-mark prompting unleashes extraordinary visual grounding in gpt-4v." arXiv preprint arXiv:2310.11441 (2023). Yan, An, et al. "Gpt-4v in wonderland: Large multimodal models for zeroshot smartphone gui navigation." arXiv preprint arXiv:2311.07562 (2023).
手法 Dual-agent Framework 5 全体の流れ 1. AppAgentが使用する アプリと、大まかな実行 計画を立てる 2. AppAgentの立てた計 画に従って、ActAgent がアプリ上で操作→観 測→計画修正を繰り返 す AppAgent : アプリケーションの選択を担当 ActAgent : アプリケーションの操作を担当 3. 必要によってアプリケー ションを移動し、2を繰り 返す
AppAgent (1/2) 6 AppAgent アプリケーションの選択を行うagent 入力 説明 User Request ユーザの要望 Desktop Screenshots デスクトップのスクリーンショット Application Information 使用可能なアプリケーションの名前とタイプ Memory 前のstepでの行動の結果など Example アプリケーション選択の出力例 8つ程度 出力 説明 Observations デスクトップ画面の詳細な説明 Thoughts 次のステップで行うべきこと Selected Application 操作を行うべきアプリケーション Status タスクの実行状況 Global Plan 今後の大まかな計画 Comment 進捗のまとめ、ポイント
AppAgent (2/2) ・ ObervationとThoughtを先に出力させることで、アプリ選択に論理的一貫性を持たせている。 7
ActAgent (1/2) 8 ActAgent アプリケーションの実行を行うagent 入力(赤字はAppAgentとの差があるもの) 説明 User Request ユーザの要望 Screenshots (i)前のstep (ii)今回のstep (iii)今回のstep(アノテーション付き) Control Information アプリケーション上で実行可能な操作の一覧 Memory 前のstepでの行動の結果など Example アプリ上での行動の選択の出力例(8つ) 出力 説明 Observations デスクトップ画面の詳細な説明 Thoughts 行動を選択した説明 Selected Control 行動を加える対象(ex. ボタン) Function 呼び出す関数とその引数(ex. クリック, 文字入力) Status タスクの実行状況 Local Plan Global Planよりも詳細な計画 Comment 進捗のまとめ、述べるべきポイント
ActAgent (2/2) ・スクショを三種類入れることで、前回の操作の結果の分析や、UI要素の認識の性能向上を図る 9
UI要素の知覚と操作方法 10 ・pywinautoというPythonライブラリで ・UI要素の取得 ・操作 を行う。UI要素の名前やタイプなどを把握し、行動を選択する際に用いている。 ・pywinauto 自体は、Windows UI Automation API を叩いて情報取得を 行っている。 アノテーション例
実験 (1/2) 11 ・Windows Bench という独自のベンチマークを作成 ・Outlook, Word, PowerPointを含む9つのアプリケーションにわたる、 50個のリクエストに対する実行結果を計測 ・Windows用のAgentが存在しないため、GPT-3.5とGPT-4をベースラインに設定 Success : タスクの成功率 Step : タスク実行に要したステップ数 Completion Rate : 正しいステップ数 要したステップ数 Safeguard Rate : ユーザの確認を要求す る頻度
実験 (2/2) 12 ・ UFOはベンチマーク全体で、86%のタスク成功率でGPT-4の2倍以上 ・ タスク実行に必要なstep数もGPT-4と比べると減少しており、より効率的になっている ・ ベースラインのモデルと差が生じた原因として、1. アプリケーションとの相互作用性の有無 2. 画像入力の有無 があると分析している Success : タスクの成功率 Step : タスク実行に要したステップ数 Completion Rate : 正しいステップ数 要したステップ数 Safeguard Rate : ユーザの確認を要求す る頻度
UFOの実行例 13 PowerPoint上の論文をインターネットで検索し て、要約を作成させている例 ・ PowerPointの中身を読み、Google検索を 行い、arxivを開く。 ・ その次に、ユーザの要求に従って、PDFを開き中 身を要約する。 ・ 実際に動かしてみると、同様の動作を確認した。
まとめ • Windows用のGUI Agentを初めて開発し、素のGPT-4の2倍以上のタスク成 功率を示した。 • UFOは、 1. 画像+pywinautoによるUI知覚 2. Dual-agent Framework 3. GPT-4Vベース という特徴をもつ。 14