UFO² est l'AgentOS de bureau de nouvelle génération de Microsoft qui transforme les requêtes en langage naturel en flux de travail multi-applications automatiques, fiables, sur Windows, combinant l'automatisation de l'interface utilisateur, l'intégration d'API natives et la coordination multi-agents.
https://github.com/microsoft/UFO?ref=aipure&utm_source=aipure
UFO²

Informations sur le produit

Mis à jour:May 16, 2025

Qu'est-ce que UFO²

UFO² (Desktop AgentOS) est un projet open source développé par Microsoft qui représente une évolution majeure par rapport au framework UFO original. Il sert de système multi-agent complet conçu pour automatiser les opérations Windows via des commandes en langage naturel. Lancé en avril 2025, UFO² s'intègre à Windows OS (version 10 et supérieure) et nécessite Python 3.10 ou supérieur. Le framework n'est pas une fonctionnalité Windows officielle, mais plutôt une plateforme expérimentale qui démontre des capacités d'automatisation avancées grâce à la combinaison de grands modèles de langage, de la vision par ordinateur et de l'intégration système.

Caractéristiques principales de UFO²

UFO² (Desktop AgentOS) est un framework multi-agent avancé axé sur l'interface utilisateur pour Windows OS qui transforme les requêtes en langage naturel en flux de travail automatisés. Il combine une intégration profonde du système d'exploitation, des actions hybrides GUI et API, et un système de connaissances continu pour exécuter des tâches complexes à travers plusieurs applications. Le système comprend un isolement du bureau en mode image dans l'image, une exécution multi-actions spéculative et une détection sophistiquée des contrôles grâce à l'automatisation de l'interface utilisateur et à la reconnaissance visuelle.
Intégration profonde du système d'exploitation: Combine Windows UIA, Win32 et WinCOM pour un contrôle complet du système, permettant à la fois l'automatisation de l'interface graphique et les commandes API directes
Bureau en mode image dans l'image: Exécute des tâches d'automatisation dans un environnement de bureau virtuel isolé, permettant aux utilisateurs de continuer à travailler sur leur écran principal sans interférence
Coordination multi-agents: Utilise HostAgent pour gérer la planification des tâches et plusieurs AppAgents pour gérer les opérations spécifiques à l'application, permettant des flux de travail inter-applications complexes
Système de substrat de connaissances: Intègre plusieurs sources de connaissances, y compris la documentation hors ligne, la recherche en ligne, les démonstrations des utilisateurs et les traces d'exécution via la technologie RAG

Cas d'utilisation de UFO²

Automatisation de bureau: Automatise les tâches de routine dans les applications Microsoft Office, telles que la saisie de données, la mise en forme de documents et la gestion des e-mails
Administration du système: Gère les opérations et configurations complexes du système Windows via des commandes en langage naturel
Flux de travail inter-applications: Exécute des tâches qui s'étendent sur plusieurs applications, telles que la collecte de données à partir d'une page Web et la création d'un rapport de feuille de calcul
Contrôle d'application personnalisé: Peut être formé pour faire fonctionner des applications spécialisées ou de niche grâce à l'apprentissage par démonstration et à la documentation

Avantages

Taux de réussite plus élevé par rapport aux outils d'automatisation traditionnels
Combinaison flexible d'actions basées sur l'interface graphique et l'API
Capacité d'apprentissage continu grâce à diverses sources de connaissances
Fonctionnement non intrusif grâce à l'isolement du bureau virtuel

Inconvénients

Actuellement limité à l'environnement Windows OS
Nécessite des clés API et une configuration
Peut avoir des problèmes de confidentialité lors de la manipulation d'informations sensibles

Comment utiliser UFO²

Installer les prérequis: Assurez-vous que Python >= 3.10 et Windows OS >= 10 sont installés sur votre système. Créez éventuellement un environnement conda avec 'conda create -n ufo python=3.10'
Cloner et installer UFO: Clonez le référentiel avec 'git clone https://github.com/microsoft/UFO.git', accédez au répertoire UFO et exécutez 'pip install -r requirements.txt'
Configurer les paramètres LLM: Copiez ufo/config/config.yaml.template vers ufo/config/config.yaml et configurez vos paramètres LLM (OpenAI ou Azure OpenAI), y compris les clés API et les points de terminaison pour HostAgent et AppAgent
Configurer RAG (facultatif): Configurez les fonctionnalités facultatives de génération augmentée de récupération (RAG) dans config.yaml - peut inclure des documents d'aide hors ligne, la recherche Bing, l'auto-expérience ou des démonstrations utilisateur
Lancer UFO: Démarrez UFO en exécutant 'python -m ufo --task <your_task_name>' pour le mode interactif, ou 'python -m ufo --task <your_task_name> -r \"<your_request>\"' pour l'exécution directe
Surveiller l'exécution: Consultez le répertoire ./ufo/logs/<your_task_name>/ pour les captures d'écran d'exécution et les journaux de requêtes/réponses afin de surveiller ou de déboguer les actions de l'agent
Obtenir de l'aide: Pour obtenir de l'aide, consultez la documentation sur microsoft.github.io/UFO/, créez des problèmes GitHub ou contactez [email protected] pour d'autres communications

FAQ de UFO²

UFO² est un AgentOS de bureau, qui est une nouvelle génération de framework d'agent capable de fonctionner sur le système d'exploitation Windows. Il est conçu pour transformer les requêtes en langage naturel en flux de travail automatiques, fiables et multi-applications sur Windows, au-delà des capacités axées sur l'interface utilisateur.

Derniers outils d'IA similaires à UFO²

Athena AI
Athena AI
Athena AI est une plateforme polyvalente alimentée par IA offrant une assistance d'étude personnalisée, des solutions commerciales et du coaching de vie grâce à des fonctionnalités telles que l'analyse de documents, la génération de quiz, des cartes mémoire et des capacités de chat interactif.
Aguru AI
Aguru AI
Aguru AI est une solution logicielle sur site qui fournit des outils complets de surveillance, de sécurité et d'optimisation pour les applications basées sur LLM avec des fonctionnalités telles que le suivi du comportement, la détection d'anomalies et l'optimisation des performances.
GOAT AI
GOAT AI
GOAT AI est une plateforme alimentée par l'IA qui fournit des capacités de résumé en un clic pour divers types de contenu, y compris des articles de presse, des documents de recherche et des vidéos, tout en offrant également une orchestration avancée d'agents IA pour des tâches spécifiques au domaine.
GiGOS
GiGOS
GiGOS est une plateforme d'IA qui fournit un accès à plusieurs modèles de langage avancés comme Gemini, GPT-4, Claude et Grok avec une interface intuitive pour que les utilisateurs interagissent et comparent différents modèles d'IA.