UFO² - это Desktop AgentOS следующего поколения от Microsoft, который преобразует запросы на естественном языке в автоматические, надежные рабочие процессы с несколькими приложениями в Windows, сочетая автоматизацию пользовательского интерфейса, интеграцию собственных API и координацию нескольких агентов.
https://github.com/microsoft/UFO?ref=aipure&utm_source=aipure
UFO²

Информация о продукте

Обновлено:16/05/2025

Что такое UFO²

UFO² (Desktop AgentOS) - это проект с открытым исходным кодом, разработанный Microsoft, который представляет собой значительную эволюцию оригинального фреймворка UFO. Он служит комплексной мультиагентной системой, предназначенной для автоматизации операций Windows с помощью команд на естественном языке. Выпущенный в апреле 2025 года, UFO² интегрируется с Windows OS (версии 10 и выше) и требует Python 3.10 или выше. Фреймворк не является официальной функцией Windows, а скорее экспериментальной платформой, которая демонстрирует расширенные возможности автоматизации благодаря сочетанию больших языковых моделей, компьютерного зрения и системной интеграции.

Ключевые особенности UFO²

UFO² (Desktop AgentOS) - это продвинутая многоагентная платформа, ориентированная на пользовательский интерфейс, для Windows OS, которая преобразует запросы на естественном языке в автоматизированные рабочие процессы. Она сочетает в себе глубокую интеграцию с ОС, гибридные действия GUI и API, а также систему непрерывного обучения для выполнения сложных задач в различных приложениях. Система включает в себя изоляцию рабочего стола по принципу "картинка в картинке", спекулятивное выполнение нескольких действий и сложную систему обнаружения элементов управления с помощью автоматизации пользовательского интерфейса и визуального распознавания.
Глубокая интеграция с ОС: Сочетает в себе Windows UIA, Win32 и WinCOM для всестороннего управления системой, обеспечивая как автоматизацию графического интерфейса, так и прямые команды API
Рабочий стол "картинка в картинке": Запускает задачи автоматизации в изолированной виртуальной среде рабочего стола, позволяя пользователям продолжать работать на своем основном экране без помех
Координация нескольких агентов: Использует HostAgent для управления планированием задач и несколько AppAgent для обработки операций, специфичных для приложений, обеспечивая сложные межплатформенные рабочие процессы
Система базы знаний: Интегрирует несколько источников знаний, включая автономную документацию, онлайн-поиск, пользовательские демонстрации и трассировки выполнения с помощью технологии RAG

Варианты использования UFO²

Автоматизация офисной работы: Автоматизирует рутинные задачи в приложениях Microsoft Office, такие как ввод данных, форматирование документов и управление электронной почтой
Системное администрирование: Обрабатывает сложные системные операции и конфигурации Windows с помощью команд на естественном языке
Межплатформенные рабочие процессы: Выполняет задачи, охватывающие несколько приложений, такие как сбор данных с веб-страницы и создание отчета в электронной таблице
Управление пользовательскими приложениями: Может быть обучен управлению специализированными или нишевыми приложениями посредством демонстрационного обучения и документации

Преимущества

Более высокий процент успеха по сравнению с традиционными инструментами автоматизации
Гибкое сочетание действий на основе GUI и API
Возможность непрерывного обучения с помощью различных источников знаний
Ненавязчивая работа благодаря изоляции виртуального рабочего стола

Недостатки

В настоящее время ограничено средой Windows OS
Требуются ключи API и настройка конфигурации
Могут возникнуть проблемы с конфиденциальностью при обработке конфиденциальной информации

Как использовать UFO²

Установите необходимые компоненты: Убедитесь, что на вашей системе установлены Python >= 3.10 и Windows OS >= 10. При желании создайте среду conda с помощью 'conda create -n ufo python=3.10'
Клонируйте и установите UFO: Клонируйте репозиторий с помощью 'git clone https://github.com/microsoft/UFO.git', перейдите в каталог UFO и запустите 'pip install -r requirements.txt'
Настройте параметры LLM: Скопируйте ufo/config/config.yaml.template в ufo/config/config.yaml и настройте параметры LLM (OpenAI или Azure OpenAI), включая ключи API и конечные точки для HostAgent и AppAgent.
Настройте RAG (необязательно): Настройте дополнительные функции Retrieval Augmented Generation (RAG) в config.yaml - могут включать автономные справочные документы, поиск Bing, собственный опыт или демонстрации пользователей.
Запустите UFO: Запустите UFO, выполнив 'python -m ufo --task <your_task_name>' для интерактивного режима или 'python -m ufo --task <your_task_name> -r \"<your_request>\"' для прямого выполнения.
Контролируйте выполнение: Проверьте каталог ./ufo/logs/<your_task_name>/ на наличие скриншотов выполнения и журналов запросов/ответов для мониторинга или отладки действий агента.
Получите поддержку: Для получения справки ознакомьтесь с документацией на microsoft.github.io/UFO/, создайте проблемы на GitHub или свяжитесь с ufo-agent@microsoft.com для других сообщений.

Часто задаваемые вопросы о UFO²

UFO² - это Desktop AgentOS, новое поколение фреймворка агентов, который может работать на Windows. Он разработан для преобразования запросов на естественном языке в автоматические, надежные рабочие процессы с несколькими приложениями в Windows, выходящие за рамки возможностей, ориентированных на пользовательский интерфейс.

Последние ИИ-инструменты, похожие на UFO²

Athena AI
Athena AI
Athena AI — это универсальная ИИ-платформа, предлагающая персонализированную учебную поддержку, бизнес-решения и коучинг по жизни через функции анализа документов, генерации тестов, карточек и интерактивного чата.
Aguru AI
Aguru AI
Aguru AI — это локальное программное решение, которое предоставляет комплексные инструменты для мониторинга, защиты и оптимизации приложений на основе LLM, включая функции отслеживания поведения, обнаружения аномалий и оптимизации производительности.
GOAT AI
GOAT AI
GOAT AI — это платформа, управляемая AI, которая предоставляет возможности однократного суммирования для различных типов контента, включая новостные статьи, исследовательские работы и видео, а также предлагает продвинутую оркестрацию AI-агентов для задач, специфичных для определенной области.
GiGOS
GiGOS
GiGOS - это AI платформа, которая предоставляет доступ к нескольким продвинутым языковым моделям, таким как Gemini, GPT-4, Claude и Grok, с интуитивно понятным интерфейсом для пользователей, чтобы взаимодействовать и сравнивать различные AI модели.