UFO² 是 Microsoft 的下一代桌面代理作業系統,可將自然語言請求轉換為 Windows 上自動、可靠的多應用程式工作流程,結合了 UI 自動化、原生 API 整合和多代理協調。
https://github.com/microsoft/UFO?ref=aipure&utm_source=aipure
UFO²

產品資訊

更新時間:2025年05月16日

什麼是 UFO²

UFO² (桌面代理作業系統) 是 Microsoft 開發的一個開源專案,代表了原始 UFO 框架的重大演變。它是一個綜合性的多代理系統,旨在透過自然語言命令自動化 Windows 操作。UFO² 於 2025 年 4 月發布,與 Windows 作業系統(10 及以上版本)整合,並且需要 Python 3.10 或更高版本。該框架不是 Windows 的官方功能,而是一個實驗性平台,展示了透過大型語言模型、電腦視覺和系統整合相結合的先進自動化功能。

UFO² 的主要功能

UFO² (Desktop AgentOS) 是一個以 UI 為中心的高級多代理框架,適用於 Windows 作業系統,可將自然語言請求轉換為自動化工作流程。它結合了深度作業系統整合、混合 GUI 和 API 操作,以及持續的知識系統,以執行跨多個應用程式的複雜任務。該系統具有畫中畫桌面隔離、推測性多動作執行,以及通過 UI 自動化和視覺識別實現的精確控制檢測。
深度作業系統整合: 結合 Windows UIA、Win32 和 WinCOM 實現全面的系統控制,從而實現 GUI 自動化和直接 API 命令
畫中畫桌面: 在隔離的虛擬桌面環境中運行自動化任務,允許用戶繼續在其主屏幕上工作而不受干擾
多代理協調: 使用 HostAgent 管理任務規劃,並使用多個 AppAgent 處理特定於應用程式的操作,從而實現複雜的跨應用程式工作流程
知識基底系統: 通過 RAG 技術整合多個知識來源,包括離線文檔、在線搜索、用戶演示和執行跟踪

UFO² 的使用案例

辦公室自動化: 自動執行 Microsoft Office 應用程式中的例行任務,例如數據輸入、文檔格式化和電子郵件管理
系統管理: 通過自然語言命令處理複雜的 Windows 系統操作和配置
跨應用程式工作流程: 執行跨多個應用程式的任務,例如從網頁收集數據並創建電子表格報告
自定義應用程式控制: 可以通過演示學習和文檔來訓練操作專用或利基應用程式

優點

與傳統自動化工具相比,成功率更高
GUI 和基於 API 的操作的靈活組合
通過各種知識來源實現持續學習能力
通過虛擬桌面隔離實現非侵入式操作

缺點

目前僅限於 Windows 作業系統環境
需要 API 密鑰和配置設置
處理敏感信息時可能存在隱私問題

如何使用 UFO²

安裝先決條件: 確保您的系統上已安裝 Python >= 3.10 和 Windows 作業系統 >= 10。您可以選擇使用 'conda create -n ufo python=3.10' 建立一個 conda 環境
克隆並安裝 UFO: 使用 'git clone https://github.com/microsoft/UFO.git' 克隆儲存庫,導航到 UFO 目錄,然後執行 'pip install -r requirements.txt'
配置 LLM 設定: 將 ufo/config/config.yaml.template 複製到 ufo/config/config.yaml,並配置您的 LLM 設定(OpenAI 或 Azure OpenAI),包括 HostAgent 和 AppAgent 的 API 金鑰和端點
設定 RAG(可選): 在 config.yaml 中配置可選的檢索增強生成 (RAG) 功能 - 可以包括離線幫助文檔、Bing 搜尋、自我經驗或使用者示範
啟動 UFO: 透過執行 'python -m ufo --task <your_task_name>' 以互動模式啟動 UFO,或執行 'python -m ufo --task <your_task_name> -r \"<your_request>\"' 以直接執行
監控執行: 檢查 ./ufo/logs/<your_task_name>/ 目錄中的執行螢幕截圖和請求/回應日誌,以監控或偵錯代理程式的操作
取得支援: 如需幫助,請查看 microsoft.github.io/UFO/ 上的文檔,建立 GitHub 問題,或聯絡 [email protected] 進行其他溝通

UFO² 常見問題

UFO² 是一個桌面 AgentOS,它是新一代的代理框架,可以在 Windows 桌面作業系統上運行。它的設計目的是將自然語言請求轉化為 Windows 上自動、可靠、多應用程式的工作流程,超越了以 UI 為中心的功能。

与 UFO² 类似的最新 AI 工具

Athena AI
Athena AI
Athena AI 是一個多功能的 AI 驅動平台,通過文檔分析、測驗生成、閃卡和互動聊天功能,提供個性化的學習協助、商業解決方案和生活輔導。
Aguru AI
Aguru AI
Aguru AI 是一個本地部署的軟件解決方案,為基於 LLM 的應用提供全面的監控、安全和優化工具,包括行為跟蹤、異常檢測和性能優化等功能。
GOAT AI
GOAT AI
GOAT AI 是一個 AI 驅動的平台,提供一鍵摘要功能,適用於新聞文章、研究論文和視頻等多種內容類型,同時還提供先進的 AI 代理編排,用於特定領域的任務。
GiGOS
GiGOS
GiGOS 是一個 AI 平台,提供多個先進的語言模型,如 Gemini、GPT-4、Claude 和 Grok,並通過直觀的界面讓用戶與不同的 AI 模型互動和比較。