UFO² 是微软的下一代桌面 AgentOS,它将自然语言请求转换为 Windows 上自动、可靠的多应用程序工作流程,结合了 UI 自动化、本机 API 集成和多代理协调。
https://github.com/microsoft/UFO?ref=aipure&utm_source=aipure
UFO²

产品信息

更新于:2025年05月16日

什么是 UFO²

UFO² (桌面 AgentOS) 是微软开发的一个开源项目,代表了原始 UFO 框架的重大演进。它作为一个综合性的多代理系统,旨在通过自然语言命令自动化 Windows 操作。UFO² 于 2025 年 4 月发布,与 Windows 操作系统(10 及以上版本)集成,并且需要 Python 3.10 或更高版本。该框架不是 Windows 的官方功能,而是一个实验性平台,通过大型语言模型、计算机视觉和系统集成的结合,展示了先进的自动化能力。

UFO² 的主要功能

UFO² (Desktop AgentOS) 是一款以 UI 为中心的高级多代理框架,适用于 Windows 操作系统,可将自然语言请求转换为自动化工作流程。它结合了深度操作系统集成、混合 GUI 和 API 操作以及持续的知识系统,以执行跨多个应用程序的复杂任务。该系统具有画中画桌面隔离、推测性多动作执行以及通过 UI 自动化和视觉识别实现的复杂控件检测。
深度操作系统集成: 结合 Windows UIA、Win32 和 WinCOM 实现全面的系统控制,从而实现 GUI 自动化和直接 API 命令
画中画桌面: 在隔离的虚拟桌面环境中运行自动化任务,允许用户继续在主屏幕上工作而不会受到干扰
多代理协调: 使用 HostAgent 管理任务规划,使用多个 AppAgent 处理特定于应用程序的操作,从而实现复杂的跨应用程序工作流程
知识底层系统: 通过 RAG 技术集成多个知识来源,包括离线文档、在线搜索、用户演示和执行跟踪

UFO² 的使用场景

办公室自动化: 自动化 Microsoft Office 应用程序中的日常任务,例如数据录入、文档格式设置和电子邮件管理
系统管理: 通过自然语言命令处理复杂的 Windows 系统操作和配置
跨应用程序工作流程: 执行跨多个应用程序的任务,例如从网页收集数据并创建电子表格报告
自定义应用程序控制: 可以通过演示学习和文档培训来操作专门或小众的应用程序

优点

与传统自动化工具相比,成功率更高
GUI 和基于 API 的操作的灵活组合
通过各种知识来源实现的持续学习能力
通过虚拟桌面隔离实现的非侵入式操作

缺点

目前仅限于 Windows 操作系统环境
需要 API 密钥和配置设置
处理敏感信息时可能存在隐私问题

如何使用 UFO²

安装先决条件: 确保您的系统上安装了 Python >= 3.10 和 Windows OS >= 10。可以选择使用 'conda create -n ufo python=3.10' 创建一个 conda 环境
克隆并安装 UFO: 使用 'git clone https://github.com/microsoft/UFO.git' 克隆存储库,导航到 UFO 目录,然后运行 'pip install -r requirements.txt'
配置 LLM 设置: 将 ufo/config/config.yaml.template 复制到 ufo/config/config.yaml 并配置您的 LLM 设置(OpenAI 或 Azure OpenAI),包括 HostAgent 和 AppAgent 的 API 密钥和端点
设置 RAG(可选): 在 config.yaml 中配置可选的检索增强生成 (RAG) 功能 - 可以包括离线帮助文档、Bing 搜索、自我经验或用户演示
启动 UFO: 通过运行 'python -m ufo --task <your_task_name>' 启动 UFO 以进入交互模式,或运行 'python -m ufo --task <your_task_name> -r \"<your_request>\"' 以进行直接执行
监控执行: 检查 ./ufo/logs/<your_task_name>/ 目录中的执行屏幕截图和请求/响应日志,以监控或调试代理的操作
获取支持: 如需帮助,请查看 microsoft.github.io/UFO/ 上的文档,创建 GitHub 问题,或联系 [email protected] 进行其他沟通

UFO² 常见问题

UFO²是一个桌面AgentOS,它是可以在Windows桌面操作系统上运行的新一代Agent框架。它旨在将自然语言请求转化为Windows上自动、可靠、多应用程序的工作流程,超越了以UI为中心的功能。

与 UFO² 类似的最新 AI 工具

Athena AI
Athena AI
Athena AI 是一个多功能的 AI 驱动平台,通过文档分析、测验生成、闪卡和互动聊天功能提供个性化学习辅助、商业解决方案和生活指导。
Aguru AI
Aguru AI
Aguru AI 是一个本地软件解决方案,为基于 LLM 的应用程序提供全面的监控、安全和优化工具,包括行为跟踪、异常检测和性能优化等功能。
GOAT AI
GOAT AI
GOAT AI 是一个 AI 驱动的平台,提供一键摘要功能,适用于新闻文章、研究论文和视频等各种内容类型,同时提供针对特定领域任务的高级 AI 代理编排。
GiGOS
GiGOS
GiGOS是一个AI平台,提供访问多个高级语言模型(如Gemini、GPT-4、Claude和Grok)的权限,并通过直观的界面让用户与不同的AI模型互动和比较。