UFO² ist Microsofts Desktop AgentOS der nächsten Generation, das natürliche Sprachanfragen in automatische, zuverlässige Multi-Applikations-Workflows unter Windows umwandelt und UI-Automatisierung, native API-Integration und Multi-Agenten-Koordination kombiniert.
https://github.com/microsoft/UFO?ref=aipure&utm_source=aipure
UFO²

Produktinformationen

Aktualisiert:May 16, 2025

Was ist UFO²

UFO² (Desktop AgentOS) ist ein Open-Source-Projekt, das von Microsoft entwickelt wurde und eine bedeutende Weiterentwicklung des ursprünglichen UFO-Frameworks darstellt. Es dient als umfassendes Multi-Agenten-System, das Windows-Operationen durch natürliche Sprachbefehle automatisiert. UFO², das im April 2025 veröffentlicht wurde, integriert sich in Windows OS (Version 10 und höher) und erfordert Python 3.10 oder höher. Das Framework ist keine offizielle Windows-Funktion, sondern eine experimentelle Plattform, die fortschrittliche Automatisierungsfunktionen durch die Kombination von großen Sprachmodellen, Computer Vision und Systemintegration demonstriert.

Hauptfunktionen von UFO²

UFO² (Desktop AgentOS) ist ein fortschrittliches, UI-fokussiertes Multi-Agenten-Framework für Windows OS, das natürliche Sprachanfragen in automatisierte Arbeitsabläufe umwandelt. Es kombiniert tiefe OS-Integration, hybride GUI- und API-Aktionen und ein kontinuierliches Wissenssystem, um komplexe Aufgaben über mehrere Anwendungen hinweg auszuführen. Das System bietet Picture-in-Picture-Desktop-Isolation, spekulative Multi-Aktions-Ausführung und ausgefeilte Steuerungserkennung sowohl durch UI-Automatisierung als auch durch visuelle Erkennung.
Tiefe OS-Integration: Kombiniert Windows UIA, Win32 und WinCOM für umfassende Systemsteuerung, wodurch sowohl GUI-Automatisierung als auch direkte API-Befehle ermöglicht werden
Picture-in-Picture-Desktop: Führt Automatisierungsaufgaben in einer isolierten virtuellen Desktop-Umgebung aus, sodass Benutzer weiterhin auf ihrem Hauptbildschirm arbeiten können, ohne beeinträchtigt zu werden
Multi-Agenten-Koordination: Verwendet HostAgent zur Verwaltung der Aufgabenplanung und mehrere AppAgents zur Handhabung anwendungsspezifischer Operationen, wodurch komplexe anwendungsübergreifende Arbeitsabläufe ermöglicht werden
Wissenssubstrat-System: Integriert mehrere Wissensquellen, darunter Offline-Dokumentation, Online-Suche, Benutzerdemonstrationen und Ausführungsspuren durch RAG-Technologie

Anwendungsfälle von UFO²

Büroautomatisierung: Automatisiert Routineaufgaben in Microsoft Office-Anwendungen, wie Dateneingabe, Dokumentformatierung und E-Mail-Verwaltung
Systemadministration: Verarbeitet komplexe Windows-Systemoperationen und -konfigurationen durch natürliche Sprachbefehle
Anwendungsübergreifende Arbeitsabläufe: Führt Aufgaben aus, die sich über mehrere Anwendungen erstrecken, wie z. B. das Sammeln von Daten von einer Webseite und das Erstellen eines Tabellenkalkulationsberichts
Benutzerdefinierte Anwendungssteuerung: Kann trainiert werden, um spezialisierte oder Nischenanwendungen durch Demonstrationslernen und Dokumentation zu bedienen

Vorteile

Höhere Erfolgsrate im Vergleich zu traditionellen Automatisierungstools
Flexible Kombination von GUI- und API-basierten Aktionen
Kontinuierliche Lernfähigkeit durch verschiedene Wissensquellen
Nicht-intrusiver Betrieb durch virtuelle Desktop-Isolation

Nachteile

Derzeit auf die Windows OS-Umgebung beschränkt
Erfordert API-Schlüssel und Konfigurationseinrichtung
Kann Datenschutzbedenken beim Umgang mit sensiblen Informationen haben

Wie verwendet man UFO²

Voraussetzungen installieren: Stellen Sie sicher, dass Python >= 3.10 und Windows OS >= 10 auf Ihrem System installiert sind. Erstellen Sie optional eine Conda-Umgebung mit \'conda create -n ufo python=3.10\'
UFO klonen und installieren: Klonen Sie das Repository mit \'git clone https://github.com/microsoft/UFO.git\', navigieren Sie zum UFO-Verzeichnis und führen Sie \'pip install -r requirements.txt\' aus
LLM-Einstellungen konfigurieren: Kopieren Sie ufo/config/config.yaml.template nach ufo/config/config.yaml und konfigurieren Sie Ihre LLM-Einstellungen (OpenAI oder Azure OpenAI), einschließlich API-Schlüssel und Endpunkte für HostAgent und AppAgent
RAG einrichten (optional): Konfigurieren Sie optionale Retrieval Augmented Generation (RAG)-Funktionen in config.yaml - kann Offline-Hilfedokumente, Bing-Suche, Selbsterfahrung oder Benutzerdemonstrationen enthalten
UFO starten: Starten Sie UFO, indem Sie \'python -m ufo --task <your_task_name>\' für den interaktiven Modus oder \'python -m ufo --task <your_task_name> -r \"<your_request>\"\' für die direkte Ausführung ausführen
Ausführung überwachen: Überprüfen Sie das Verzeichnis ./ufo/logs/<your_task_name>/ auf Screenshots der Ausführung und Anforderungs-/Antwortprotokolle, um die Aktionen des Agenten zu überwachen oder zu debuggen
Unterstützung erhalten: Für Hilfe überprüfen Sie die Dokumentation unter microsoft.github.io/UFO/, erstellen Sie GitHub-Issues oder kontaktieren Sie [email protected] für andere Mitteilungen

UFO² FAQs

UFO² ist ein Desktop AgentOS, ein Agent-Framework der neuen Generation, das unter Windows Desktop OS ausgeführt werden kann. Es wurde entwickelt, um natürlichsprachliche Anfragen in automatische, zuverlässige Multi-Applikations-Workflows unter Windows umzuwandeln, die über UI-fokussierte Fähigkeiten hinausgehen.

Neueste KI-Tools ähnlich wie UFO²

Athena AI
Athena AI
Athena AI ist eine vielseitige KI-gestützte Plattform, die personalisierte Studienhilfe, Geschäftslösungen und Lebensberatung durch Funktionen wie Dokumentenanalyse, Quizgenerierung, Karteikarten und interaktive Chat-Funktionen anbietet.
Aguru AI
Aguru AI
Aguru AI ist eine On-Premises-Softwarelösung, die umfassende Überwachungs-, Sicherheits- und Optimierungstools für LLM-basierte Anwendungen mit Funktionen wie Verhaltensverfolgung, Anomalieerkennung und Leistungsoptimierung bietet.
GOAT AI
GOAT AI
GOAT AI ist eine KI-gestützte Plattform, die Ein-Klick-Zusammenfassungsfunktionen für verschiedene Inhaltsarten, einschließlich Nachrichtenartikeln, Forschungsberichten und Videos, bietet und gleichzeitig fortschrittliche KI-Agentenorchestrierung für domänenspezifische Aufgaben anbietet.
GiGOS
GiGOS
GiGOS ist eine KI-Plattform, die Zugang zu mehreren fortschrittlichen Sprachmodellen wie Gemini, GPT-4, Claude und Grok mit einer intuitiven Benutzeroberfläche bietet, um mit verschiedenen KI-Modellen zu interagieren und diese zu vergleichen.