UFO² es el Desktop AgentOS de nueva generación de Microsoft que transforma las solicitudes en lenguaje natural en flujos de trabajo automáticos, fiables y de múltiples aplicaciones en Windows, combinando la automatización de la interfaz de usuario, la integración de la API nativa y la coordinación multi-agente.
https://github.com/microsoft/UFO?ref=aipure&utm_source=aipure
UFO²

Información del Producto

Actualizado:16/05/2025

¿Qué es UFO²?

UFO² (Desktop AgentOS) es un proyecto de código abierto desarrollado por Microsoft que representa una gran evolución del framework UFO original. Sirve como un sistema multi-agente integral diseñado para automatizar las operaciones de Windows a través de comandos en lenguaje natural. Lanzado en abril de 2025, UFO² se integra con el sistema operativo Windows (versión 10 y superiores) y requiere Python 3.10 o superior. El framework no es una característica oficial de Windows, sino más bien una plataforma experimental que demuestra capacidades de automatización avanzadas a través de la combinación de grandes modelos de lenguaje, visión artificial e integración del sistema.

Características Principales de UFO²

UFO² (Desktop AgentOS) es un marco multiagente avanzado centrado en la interfaz de usuario para Windows OS que transforma las solicitudes en lenguaje natural en flujos de trabajo automatizados. Combina una profunda integración con el sistema operativo, acciones híbridas de GUI y API, y un sistema de conocimiento continuo para ejecutar tareas complejas en múltiples aplicaciones. El sistema cuenta con aislamiento de escritorio picture-in-picture, ejecución especulativa de múltiples acciones y detección sofisticada de controles a través de la automatización de la interfaz de usuario y el reconocimiento visual.
Integración Profunda con el Sistema Operativo: Combina Windows UIA, Win32 y WinCOM para un control integral del sistema, permitiendo tanto la automatización de la GUI como los comandos directos de la API
Escritorio Picture-in-Picture: Ejecuta tareas de automatización en un entorno de escritorio virtual aislado, permitiendo a los usuarios seguir trabajando en su pantalla principal sin interferencias
Coordinación Multiagente: Utiliza HostAgent para gestionar la planificación de tareas y múltiples AppAgents para manejar las operaciones específicas de la aplicación, permitiendo flujos de trabajo complejos entre aplicaciones
Sistema de Sustrato de Conocimiento: Integra múltiples fuentes de conocimiento, incluyendo documentación offline, búsqueda online, demostraciones de usuarios y rastreos de ejecución a través de la tecnología RAG

Casos de Uso de UFO²

Automatización de Oficina: Automatiza las tareas rutinarias en las aplicaciones de Microsoft Office, como la entrada de datos, el formato de documentos y la gestión del correo electrónico
Administración del Sistema: Maneja operaciones y configuraciones complejas del sistema Windows a través de comandos en lenguaje natural
Flujos de Trabajo entre Aplicaciones: Ejecuta tareas que abarcan múltiples aplicaciones, como la recopilación de datos de una página web y la creación de un informe de hoja de cálculo
Control de Aplicaciones Personalizadas: Puede ser entrenado para operar aplicaciones especializadas o de nicho a través del aprendizaje por demostración y la documentación

Ventajas

Mayor tasa de éxito en comparación con las herramientas de automatización tradicionales
Combinación flexible de acciones basadas en GUI y API
Capacidad de aprendizaje continuo a través de varias fuentes de conocimiento
Operación no intrusiva a través del aislamiento del escritorio virtual

Desventajas

Actualmente limitado al entorno del sistema operativo Windows
Requiere claves API y configuración
Puede tener problemas de privacidad al manejar información sensible

Cómo Usar UFO²

Instalar los requisitos previos: Asegúrese de tener Python >= 3.10 y Windows OS >= 10 instalados en su sistema. Opcionalmente, cree un entorno conda con 'conda create -n ufo python=3.10'
Clonar e instalar UFO: Clone el repositorio con 'git clone https://github.com/microsoft/UFO.git', navegue al directorio UFO y ejecute 'pip install -r requirements.txt'
Configurar los ajustes de LLM: Copie ufo/config/config.yaml.template a ufo/config/config.yaml y configure sus ajustes de LLM (OpenAI o Azure OpenAI) incluyendo las claves de API y los endpoints tanto para HostAgent como para AppAgent
Configurar RAG (Opcional): Configure las características opcionales de Generación Aumentada de Recuperación (RAG) en config.yaml - puede incluir documentos de ayuda offline, búsqueda en Bing, auto-experiencia o demostraciones de usuario
Lanzar UFO: Inicie UFO ejecutando 'python -m ufo --task <your_task_name>' para el modo interactivo, o 'python -m ufo --task <your_task_name> -r \"<your_request>\"' para la ejecución directa
Monitorizar la ejecución: Compruebe el directorio ./ufo/logs/<your_task_name>/ para ver las capturas de pantalla de la ejecución y los registros de solicitud/respuesta para monitorizar o depurar las acciones del agente
Obtener soporte: Para obtener ayuda, consulte la documentación en microsoft.github.io/UFO/, cree incidencias en GitHub o póngase en contacto con [email protected] para otras comunicaciones

Preguntas Frecuentes de UFO²

UFO² es un AgentOS de escritorio, que es una nueva generación de framework de agentes que puede ejecutarse en el sistema operativo de escritorio de Windows. Está diseñado para convertir las solicitudes en lenguaje natural en flujos de trabajo automáticos, confiables y de múltiples aplicaciones en Windows, más allá de las capacidades centradas en la interfaz de usuario.

Últimas herramientas de IA similares a UFO²

Athena AI
Athena AI
Athena AI es una plataforma versátil impulsada por IA que ofrece asistencia de estudio personalizada, soluciones comerciales y coaching de vida a través de características como análisis de documentos, generación de cuestionarios, tarjetas de memoria y capacidades de chat interactivas.
Aguru AI
Aguru AI
Aguru AI es una solución de software local que proporciona herramientas integrales de monitoreo, seguridad y optimización para aplicaciones basadas en LLM con características como seguimiento de comportamiento, detección de anomalías y optimización del rendimiento.
GOAT AI
GOAT AI
GOAT AI es una plataforma impulsada por IA que proporciona capacidades de resumen con un clic para varios tipos de contenido, incluidos artículos de noticias, documentos de investigación y videos, mientras que también ofrece orquestación avanzada de agentes de IA para tareas específicas del dominio.
GiGOS
GiGOS
GiGOS es una plataforma de IA que proporciona acceso a múltiples modelos de lenguaje avanzados como Gemini, GPT-4, Claude y Grok, con una interfaz intuitiva para que los usuarios interactúen y comparen diferentes modelos de IA.