
UFO²
UFO² 是 Microsoft 的下一代桌面代理作業系統,可將自然語言請求轉換為 Windows 上自動、可靠的多應用程式工作流程,結合了 UI 自動化、原生 API 整合和多代理協調。
https://github.com/microsoft/UFO?ref=aipure&utm_source=aipure

產品資訊
更新時間:2025年05月16日
什麼是 UFO²
UFO² (桌面代理作業系統) 是 Microsoft 開發的一個開源專案,代表了原始 UFO 框架的重大演變。它是一個綜合性的多代理系統,旨在透過自然語言命令自動化 Windows 操作。UFO² 於 2025 年 4 月發布,與 Windows 作業系統(10 及以上版本)整合,並且需要 Python 3.10 或更高版本。該框架不是 Windows 的官方功能,而是一個實驗性平台,展示了透過大型語言模型、電腦視覺和系統整合相結合的先進自動化功能。
UFO² 的主要功能
UFO² (Desktop AgentOS) 是一個以 UI 為中心的高級多代理框架,適用於 Windows 作業系統,可將自然語言請求轉換為自動化工作流程。它結合了深度作業系統整合、混合 GUI 和 API 操作,以及持續的知識系統,以執行跨多個應用程式的複雜任務。該系統具有畫中畫桌面隔離、推測性多動作執行,以及通過 UI 自動化和視覺識別實現的精確控制檢測。
深度作業系統整合: 結合 Windows UIA、Win32 和 WinCOM 實現全面的系統控制,從而實現 GUI 自動化和直接 API 命令
畫中畫桌面: 在隔離的虛擬桌面環境中運行自動化任務,允許用戶繼續在其主屏幕上工作而不受干擾
多代理協調: 使用 HostAgent 管理任務規劃,並使用多個 AppAgent 處理特定於應用程式的操作,從而實現複雜的跨應用程式工作流程
知識基底系統: 通過 RAG 技術整合多個知識來源,包括離線文檔、在線搜索、用戶演示和執行跟踪
UFO² 的使用案例
辦公室自動化: 自動執行 Microsoft Office 應用程式中的例行任務,例如數據輸入、文檔格式化和電子郵件管理
系統管理: 通過自然語言命令處理複雜的 Windows 系統操作和配置
跨應用程式工作流程: 執行跨多個應用程式的任務,例如從網頁收集數據並創建電子表格報告
自定義應用程式控制: 可以通過演示學習和文檔來訓練操作專用或利基應用程式
優點
與傳統自動化工具相比,成功率更高
GUI 和基於 API 的操作的靈活組合
通過各種知識來源實現持續學習能力
通過虛擬桌面隔離實現非侵入式操作
缺點
目前僅限於 Windows 作業系統環境
需要 API 密鑰和配置設置
處理敏感信息時可能存在隱私問題
如何使用 UFO²
安裝先決條件: 確保您的系統上已安裝 Python >= 3.10 和 Windows 作業系統 >= 10。您可以選擇使用 'conda create -n ufo python=3.10' 建立一個 conda 環境
克隆並安裝 UFO: 使用 'git clone https://github.com/microsoft/UFO.git' 克隆儲存庫,導航到 UFO 目錄,然後執行 'pip install -r requirements.txt'
配置 LLM 設定: 將 ufo/config/config.yaml.template 複製到 ufo/config/config.yaml,並配置您的 LLM 設定(OpenAI 或 Azure OpenAI),包括 HostAgent 和 AppAgent 的 API 金鑰和端點
設定 RAG(可選): 在 config.yaml 中配置可選的檢索增強生成 (RAG) 功能 - 可以包括離線幫助文檔、Bing 搜尋、自我經驗或使用者示範
啟動 UFO: 透過執行 'python -m ufo --task <your_task_name>' 以互動模式啟動 UFO,或執行 'python -m ufo --task <your_task_name> -r \"<your_request>\"' 以直接執行
監控執行: 檢查 ./ufo/logs/<your_task_name>/ 目錄中的執行螢幕截圖和請求/回應日誌,以監控或偵錯代理程式的操作
取得支援: 如需幫助,請查看 microsoft.github.io/UFO/ 上的文檔,建立 GitHub 問題,或聯絡 [email protected] 進行其他溝通
UFO² 常見問題
UFO² 是一個桌面 AgentOS,它是新一代的代理框架,可以在 Windows 桌面作業系統上運行。它的設計目的是將自然語言請求轉化為 Windows 上自動、可靠、多應用程式的工作流程,超越了以 UI 為中心的功能。