UFO²는 Microsoft의 차세대 Desktop AgentOS로, 자연어 요청을 Windows에서 자동화되고 안정적인 다중 애플리케이션 워크플로로 변환하여 UI 자동화, 기본 API 통합 및 다중 에이전트 조정을 결합합니다.
https://github.com/microsoft/UFO?ref=aipure&utm_source=aipure
UFO²

제품 정보

업데이트됨:May 16, 2025

UFO²이란?

UFO²(Desktop AgentOS)는 Microsoft에서 개발한 오픈 소스 프로젝트로, 원래 UFO 프레임워크에서 크게 발전한 것입니다. 자연어 명령을 통해 Windows 작업을 자동화하도록 설계된 포괄적인 다중 에이전트 시스템 역할을 합니다. 2025년 4월에 출시된 UFO²는 Windows OS(버전 10 이상)와 통합되며 Python 3.10 이상이 필요합니다. 이 프레임워크는 공식 Windows 기능이 아니라 대규모 언어 모델, 컴퓨터 비전 및 시스템 통합의 조합을 통해 고급 자동화 기능을 보여주는 실험적 플랫폼입니다.

UFO²의 주요 기능

UFO² (Desktop AgentOS)는 자연어 요청을 자동화된 워크플로우로 변환하는 고급 UI 중심의 Windows OS용 멀티 에이전트 프레임워크입니다. 깊은 OS 통합, 하이브리드 GUI 및 API 액션, 지속적인 지식 시스템을 결합하여 여러 애플리케이션에서 복잡한 작업을 실행합니다. 이 시스템은 PIP(Picture-in-Picture) 데스크톱 격리, 추론적 멀티 액션 실행, UI 자동화 및 시각적 인식을 통한 정교한 컨트롤 감지 기능을 제공합니다.
깊은 OS 통합: GUI 자동화와 직접 API 명령을 모두 가능하게 하는 포괄적인 시스템 제어를 위해 Windows UIA, Win32 및 WinCOM을 결합합니다.
PIP(Picture-in-Picture) 데스크톱: 격리된 가상 데스크톱 환경에서 자동화 작업을 실행하여 사용자가 방해 없이 기본 화면에서 계속 작업할 수 있도록 합니다.
멀티 에이전트 조정: HostAgent를 사용하여 작업 계획을 관리하고 여러 AppAgent를 사용하여 애플리케이션별 작업을 처리하여 복잡한 교차 애플리케이션 워크플로우를 가능하게 합니다.
지식 기반 시스템: RAG 기술을 통해 오프라인 문서, 온라인 검색, 사용자 데모 및 실행 추적을 포함한 여러 지식 소스를 통합합니다.

UFO²의 사용 사례

사무 자동화: 데이터 입력, 문서 서식 지정, 이메일 관리 등 Microsoft Office 애플리케이션 전반의 일상적인 작업을 자동화합니다.
시스템 관리: 자연어 명령을 통해 복잡한 Windows 시스템 운영 및 구성을 처리합니다.
교차 애플리케이션 워크플로우: 웹 페이지에서 데이터를 수집하고 스프레드시트 보고서를 생성하는 등 여러 애플리케이션에 걸쳐 작업을 실행합니다.
맞춤형 애플리케이션 제어: 데모 학습 및 문서를 통해 특수하거나 틈새 애플리케이션을 작동하도록 훈련할 수 있습니다.

장점

기존 자동화 도구에 비해 성공률이 더 높음
GUI 및 API 기반 액션의 유연한 조합
다양한 지식 소스를 통한 지속적인 학습 능력
가상 데스크톱 격리를 통한 비침해적 작동

단점

현재 Windows OS 환경으로 제한됨
API 키 및 구성 설정이 필요함
민감한 정보를 처리할 때 개인 정보 보호 문제가 있을 수 있음

UFO² 사용 방법

필수 구성 요소 설치: 시스템에 Python >= 3.10 및 Windows OS >= 10이 설치되어 있는지 확인합니다. 선택적으로 'conda create -n ufo python=3.10'으로 conda 환경을 만듭니다.
UFO 복제 및 설치: 'git clone https://github.com/microsoft/UFO.git'으로 리포지토리를 복제하고 UFO 디렉토리로 이동한 다음 'pip install -r requirements.txt'를 실행합니다.
LLM 설정 구성: ufo/config/config.yaml.template를 ufo/config/config.yaml로 복사하고 HostAgent 및 AppAgent 모두에 대한 API 키 및 엔드포인트를 포함하여 LLM 설정(OpenAI 또는 Azure OpenAI)을 구성합니다.
RAG 설정(선택 사항): config.yaml에서 선택적 RAG(Retrieval Augmented Generation) 기능을 구성합니다. 오프라인 도움말 문서, Bing 검색, 자체 경험 또는 사용자 데모를 포함할 수 있습니다.
UFO 실행: 대화형 모드의 경우 'python -m ufo --task <your_task_name>'을 실행하거나 직접 실행의 경우 'python -m ufo --task <your_task_name> -r \"<your_request>\"'를 실행하여 UFO를 시작합니다.
실행 모니터링: ./ufo/logs/<your_task_name>/ 디렉토리에서 실행 스크린샷과 요청/응답 로그를 확인하여 에이전트의 작업을 모니터링하거나 디버깅합니다.
지원 받기: 도움이 필요하면 microsoft.github.io/UFO/에서 문서를 확인하거나 GitHub 문제를 만들거나 기타 통신은 [email protected]으로 문의하십시오.

UFO² 자주 묻는 질문

UFO²는 데스크톱 AgentOS이며, Windows 데스크톱 OS에서 실행할 수 있는 차세대 에이전트 프레임워크입니다. 자연어 요청을 UI 중심 기능을 넘어 Windows에서 자동화되고 안정적인 다중 애플리케이션 워크플로로 전환하도록 설계되었습니다.

UFO²와(과) 유사한 최신 AI 도구

Athena AI
Athena AI
아테나 AI는 문서 분석, 퀴즈 생성, 플래시 카드 및 인터랙티브 채팅 기능을 통해 개인화된 학습 지원, 비즈니스 솔루션 및 라이프 코칭을 제공하는 다재다능한 AI 기반 플랫폼입니다.
Aguru AI
Aguru AI
Aguru AI는 행동 추적, 이상 감지 및 성능 최적화와 같은 기능을 갖춘 LLM 기반 애플리케이션을 위한 포괄적인 모니터링, 보안 및 최적화 도구를 제공하는 온프레미스 소프트웨어 솔루션입니다.
GOAT AI
GOAT AI
GOAT AI는 뉴스 기사, 연구 논문 및 비디오를 포함한 다양한 콘텐츠 유형에 대한 원클릭 요약 기능을 제공하는 AI 기반 플랫폼이며, 도메인 특정 작업을 위한 고급 AI 에이전트 조정도 제공합니다.
GiGOS
GiGOS
GiGOS는 사용자가 다양한 AI 모델과 상호작용하고 비교할 수 있도록 직관적인 인터페이스를 제공하는 AI 플랫폼으로, Gemini, GPT-4, Claude 및 Grok와 같은 여러 고급 언어 모델에 접근할 수 있습니다.