UFO² è il Desktop AgentOS di nuova generazione di Microsoft che trasforma le richieste in linguaggio naturale in flussi di lavoro automatici, affidabili e multi-applicazione su Windows, combinando automazione dell'interfaccia utente, integrazione API nativa e coordinamento multi-agente.
https://github.com/microsoft/UFO?ref=aipure&utm_source=aipure
UFO²

Informazioni sul Prodotto

Aggiornato:May 15, 2025

Cos'è UFO²

UFO² (Desktop AgentOS) è un progetto open-source sviluppato da Microsoft che rappresenta una grande evoluzione rispetto al framework UFO originale. Funge da sistema multi-agente completo progettato per automatizzare le operazioni di Windows tramite comandi in linguaggio naturale. Rilasciato ad aprile 2025, UFO² si integra con il sistema operativo Windows (versione 10 e successive) e richiede Python 3.10 o superiore. Il framework non è una funzionalità ufficiale di Windows, ma piuttosto una piattaforma sperimentale che dimostra capacità di automazione avanzate attraverso la combinazione di modelli linguistici di grandi dimensioni, visione artificiale e integrazione di sistema.

Caratteristiche principali di UFO²

UFO² (Desktop AgentOS) è un framework multi-agente avanzato focalizzato sull'interfaccia utente per Windows OS che trasforma le richieste in linguaggio naturale in flussi di lavoro automatizzati. Combina una profonda integrazione con il sistema operativo, azioni ibride GUI e API e un sistema di conoscenza continuo per eseguire attività complesse su più applicazioni. Il sistema include l'isolamento del desktop picture-in-picture, l'esecuzione speculativa multi-azione e il rilevamento sofisticato dei controlli tramite l'automazione dell'interfaccia utente e il riconoscimento visivo.
Integrazione profonda con il sistema operativo: Combina Windows UIA, Win32 e WinCOM per un controllo completo del sistema, consentendo sia l'automazione della GUI che i comandi API diretti
Desktop Picture-in-Picture: Esegue attività di automazione in un ambiente desktop virtuale isolato, consentendo agli utenti di continuare a lavorare sulla schermata principale senza interferenze
Coordinamento multi-agente: Utilizza HostAgent per gestire la pianificazione delle attività e più AppAgent per gestire le operazioni specifiche dell'applicazione, consentendo flussi di lavoro complessi tra applicazioni
Sistema di substrato di conoscenza: Integra più fonti di conoscenza, tra cui documentazione offline, ricerca online, dimostrazioni degli utenti e tracce di esecuzione tramite la tecnologia RAG

Casi d'uso di UFO²

Automazione d'ufficio: Automatizza le attività di routine nelle applicazioni Microsoft Office, come l'inserimento di dati, la formattazione di documenti e la gestione della posta elettronica
Amministrazione del sistema: Gestisce operazioni e configurazioni complesse del sistema Windows tramite comandi in linguaggio naturale
Flussi di lavoro tra applicazioni: Esegue attività che si estendono su più applicazioni, come la raccolta di dati da una pagina web e la creazione di un rapporto di foglio di calcolo
Controllo personalizzato delle applicazioni: Può essere addestrato per utilizzare applicazioni specializzate o di nicchia tramite l'apprendimento dimostrativo e la documentazione

Vantaggi

Tasso di successo più elevato rispetto agli strumenti di automazione tradizionali
Combinazione flessibile di azioni basate su GUI e API
Capacità di apprendimento continuo attraverso varie fonti di conoscenza
Funzionamento non intrusivo tramite l'isolamento del desktop virtuale

Svantaggi

Attualmente limitato all'ambiente Windows OS
Richiede chiavi API e configurazione
Potrebbe avere problemi di privacy durante la gestione di informazioni sensibili

Come usare UFO²

Installa i prerequisiti: Assicurati di avere Python >= 3.10 e Windows OS >= 10 installati sul tuo sistema. Facoltativamente, crea un ambiente conda con 'conda create -n ufo python=3.10'
Clona e installa UFO: Clona il repository con 'git clone https://github.com/microsoft/UFO.git', vai alla directory UFO ed esegui 'pip install -r requirements.txt'
Configura le impostazioni LLM: Copia ufo/config/config.yaml.template in ufo/config/config.yaml e configura le impostazioni LLM (OpenAI o Azure OpenAI) inclusi chiavi API ed endpoint sia per HostAgent che per AppAgent
Imposta RAG (opzionale): Configura le funzionalità opzionali di Retrieval Augmented Generation (RAG) in config.yaml: possono includere documenti di aiuto offline, ricerca Bing, auto-esperienza o dimostrazioni utente
Avvia UFO: Avvia UFO eseguendo 'python -m ufo --task <your_task_name>' per la modalità interattiva, oppure 'python -m ufo --task <your_task_name> -r \"<your_request>\"' per l'esecuzione diretta
Monitora l'esecuzione: Controlla la directory ./ufo/logs/<your_task_name>/ per screenshot di esecuzione e registri di richiesta/risposta per monitorare o eseguire il debug delle azioni dell'agente
Ottieni supporto: Per assistenza, consulta la documentazione su microsoft.github.io/UFO/, crea problemi su GitHub o contatta ufo-agent@microsoft.com per altre comunicazioni

FAQ di UFO²

UFO² è un Desktop AgentOS, che è una nuova generazione di framework per agenti in grado di funzionare su sistemi operativi desktop Windows. È progettato per trasformare le richieste in linguaggio naturale in flussi di lavoro automatici, affidabili e multi-applicazione su Windows, al di là delle funzionalità incentrate sull'interfaccia utente.

Ultimi Strumenti AI Simili a UFO²

Athena AI
Athena AI
Athena AI is a versatile AI-powered platform offering personalized study assistance, business solutions, and life coaching through features like document analysis, quiz generation, flashcards, and interactive chat capabilities.
Aguru AI
Aguru AI
Aguru AI è una soluzione software on-premises che fornisce strumenti completi di monitoraggio, sicurezza e ottimizzazione per applicazioni basate su LLM con funzionalità come tracciamento del comportamento, rilevamento delle anomalie e ottimizzazione delle prestazioni.
GOAT AI
GOAT AI
GOAT AI è una piattaforma potenziata dall'AI che fornisce capacità di sintesi con un clic per vari tipi di contenuto, tra cui articoli di notizie, documenti di ricerca e video, offrendo anche un'orchestrazione avanzata degli agenti AI per compiti specifici del dominio.
GiGOS
GiGOS
GiGOS è una piattaforma di IA che fornisce accesso a più modelli di linguaggio avanzati come Gemini, GPT-4, Claude e Grok con un'interfaccia intuitiva per gli utenti per interagire e confrontare diversi modelli di IA.
Visita il Sito Web