UFO² é o Desktop AgentOS de próxima geração da Microsoft que transforma solicitações em linguagem natural em fluxos de trabalho automáticos, confiáveis e multiaplicativos no Windows, combinando automação de interface do usuário, integração de API nativa e coordenação multiagente.
https://github.com/microsoft/UFO?ref=aipure&utm_source=aipure
UFO²

Informações do Produto

Atualizado:May 16, 2025

O que é UFO²

UFO² (Desktop AgentOS) é um projeto de código aberto desenvolvido pela Microsoft que representa uma grande evolução da estrutura UFO original. Ele serve como um sistema multiagente abrangente projetado para automatizar as operações do Windows por meio de comandos em linguagem natural. Lançado em abril de 2025, o UFO² se integra ao Windows OS (versão 10 e superior) e requer Python 3.10 ou superior. A estrutura não é um recurso oficial do Windows, mas sim uma plataforma experimental que demonstra recursos avançados de automação por meio da combinação de grandes modelos de linguagem, visão computacional e integração de sistemas.

Principais Recursos do UFO²

UFO² (Desktop AgentOS) é uma estrutura multiagente avançada focada na interface do usuário para Windows OS que transforma solicitações em linguagem natural em fluxos de trabalho automatizados. Ele combina integração profunda com o sistema operacional, ações híbridas de GUI e API e um sistema de conhecimento contínuo para executar tarefas complexas em vários aplicativos. O sistema apresenta isolamento de desktop picture-in-picture, execução especulativa de múltiplas ações e detecção de controle sofisticada por meio de automação de UI e reconhecimento visual.
Integração Profunda com o SO: Combina Windows UIA, Win32 e WinCOM para controle abrangente do sistema, permitindo automação de GUI e comandos API diretos
Desktop Picture-in-Picture: Executa tarefas de automação em um ambiente de desktop virtual isolado, permitindo que os usuários continuem trabalhando em sua tela principal sem interferência
Coordenação Multiagente: Usa o HostAgent para gerenciar o planejamento de tarefas e vários AppAgents para lidar com operações específicas do aplicativo, permitindo fluxos de trabalho complexos entre aplicativos
Sistema de Substrato de Conhecimento: Integra múltiplas fontes de conhecimento, incluindo documentação offline, pesquisa online, demonstrações de usuários e rastreamentos de execução por meio da tecnologia RAG

Casos de Uso do UFO²

Automação de Escritório: Automatiza tarefas de rotina em aplicativos Microsoft Office, como entrada de dados, formatação de documentos e gerenciamento de e-mail
Administração de Sistemas: Lida com operações e configurações complexas do sistema Windows por meio de comandos em linguagem natural
Fluxos de Trabalho entre Aplicativos: Executa tarefas que abrangem vários aplicativos, como coletar dados de uma página da web e criar um relatório de planilha
Controle de Aplicativos Personalizados: Pode ser treinado para operar aplicativos especializados ou de nicho por meio de aprendizado por demonstração e documentação

Vantagens

Maior taxa de sucesso em comparação com as ferramentas de automação tradicionais
Combinação flexível de ações baseadas em GUI e API
Capacidade de aprendizado contínuo por meio de várias fontes de conhecimento
Operação não intrusiva por meio do isolamento do desktop virtual

Desvantagens

Atualmente limitado ao ambiente Windows OS
Requer chaves de API e configuração
Pode ter preocupações com a privacidade ao lidar com informações confidenciais

Como Usar o UFO²

Instalar Pré-requisitos: Certifique-se de ter o Python >= 3.10 e o Windows OS >= 10 instalados em seu sistema. Opcionalmente, crie um ambiente conda com 'conda create -n ufo python=3.10'
Clonar e Instalar o UFO: Clone o repositório com 'git clone https://github.com/microsoft/UFO.git', navegue até o diretório UFO e execute 'pip install -r requirements.txt'
Configurar as Definições de LLM: Copie ufo/config/config.yaml.template para ufo/config/config.yaml e configure suas definições de LLM (OpenAI ou Azure OpenAI), incluindo chaves de API e endpoints para HostAgent e AppAgent
Configurar RAG (Opcional): Configure os recursos opcionais de Geração Aumentada de Recuperação (RAG) em config.yaml - pode incluir documentos de ajuda offline, pesquisa Bing, autoexperiência ou demonstrações do usuário
Iniciar o UFO: Inicie o UFO executando 'python -m ufo --task <your_task_name>' para o modo interativo ou 'python -m ufo --task <your_task_name> -r \"<your_request>\"' para execução direta
Monitorar a Execução: Verifique o diretório ./ufo/logs/<your_task_name>/ para obter capturas de tela de execução e logs de solicitação/resposta para monitorar ou depurar as ações do agente
Obter Suporte: Para obter ajuda, consulte a documentação em microsoft.github.io/UFO/, crie problemas no GitHub ou entre em contato com ufo-agent@microsoft.com para outras comunicações

Perguntas Frequentes do UFO²

UFO² é um AgentOS de Desktop, que é uma nova geração de framework de agentes que pode ser executado no sistema operacional Windows. Ele é projetado para transformar solicitações em linguagem natural em fluxos de trabalho automáticos, confiáveis e multiaplicativos no Windows, além das capacidades focadas na interface do usuário.

Ferramentas de IA Mais Recentes Semelhantes a UFO²

Athena AI
Athena AI
O Athena AI é uma plataforma versátil alimentada por IA que oferece assistência de estudo personalizada, soluções de negócios e coaching de vida por meio de recursos como análise de documentos, geração de questionários, flashcards e capacidades de chat interativo.
Aguru AI
Aguru AI
Aguru AI é uma solução de software local que fornece ferramentas abrangentes de monitoramento, segurança e otimização para aplicações baseadas em LLM, com recursos como rastreamento de comportamento, detecção de anomalias e otimização de desempenho.
GOAT AI
GOAT AI
GOAT AI é uma plataforma alimentada por IA que fornece capacidades de resumo com um clique para vários tipos de conteúdo, incluindo artigos de notícias, trabalhos de pesquisa e vídeos, enquanto também oferece orquestração avançada de agentes de IA para tarefas específicas de domínio.
GiGOS
GiGOS
O GiGOS é uma plataforma de IA que fornece acesso a múltiplos modelos de linguagem avançados como Gemini, GPT-4, Claude e Grok com uma interface intuitiva para os usuários interagirem e compararem diferentes modelos de IA.