
UFO²
UFO²는 Microsoft의 차세대 Desktop AgentOS로, 자연어 요청을 Windows에서 자동화되고 안정적인 다중 애플리케이션 워크플로로 변환하여 UI 자동화, 기본 API 통합 및 다중 에이전트 조정을 결합합니다.
https://github.com/microsoft/UFO?ref=aipure&utm_source=aipure

제품 정보
업데이트됨:May 16, 2025
UFO²이란?
UFO²(Desktop AgentOS)는 Microsoft에서 개발한 오픈 소스 프로젝트로, 원래 UFO 프레임워크에서 크게 발전한 것입니다. 자연어 명령을 통해 Windows 작업을 자동화하도록 설계된 포괄적인 다중 에이전트 시스템 역할을 합니다. 2025년 4월에 출시된 UFO²는 Windows OS(버전 10 이상)와 통합되며 Python 3.10 이상이 필요합니다. 이 프레임워크는 공식 Windows 기능이 아니라 대규모 언어 모델, 컴퓨터 비전 및 시스템 통합의 조합을 통해 고급 자동화 기능을 보여주는 실험적 플랫폼입니다.
UFO²의 주요 기능
UFO² (Desktop AgentOS)는 자연어 요청을 자동화된 워크플로우로 변환하는 고급 UI 중심의 Windows OS용 멀티 에이전트 프레임워크입니다. 깊은 OS 통합, 하이브리드 GUI 및 API 액션, 지속적인 지식 시스템을 결합하여 여러 애플리케이션에서 복잡한 작업을 실행합니다. 이 시스템은 PIP(Picture-in-Picture) 데스크톱 격리, 추론적 멀티 액션 실행, UI 자동화 및 시각적 인식을 통한 정교한 컨트롤 감지 기능을 제공합니다.
깊은 OS 통합: GUI 자동화와 직접 API 명령을 모두 가능하게 하는 포괄적인 시스템 제어를 위해 Windows UIA, Win32 및 WinCOM을 결합합니다.
PIP(Picture-in-Picture) 데스크톱: 격리된 가상 데스크톱 환경에서 자동화 작업을 실행하여 사용자가 방해 없이 기본 화면에서 계속 작업할 수 있도록 합니다.
멀티 에이전트 조정: HostAgent를 사용하여 작업 계획을 관리하고 여러 AppAgent를 사용하여 애플리케이션별 작업을 처리하여 복잡한 교차 애플리케이션 워크플로우를 가능하게 합니다.
지식 기반 시스템: RAG 기술을 통해 오프라인 문서, 온라인 검색, 사용자 데모 및 실행 추적을 포함한 여러 지식 소스를 통합합니다.
UFO²의 사용 사례
사무 자동화: 데이터 입력, 문서 서식 지정, 이메일 관리 등 Microsoft Office 애플리케이션 전반의 일상적인 작업을 자동화합니다.
시스템 관리: 자연어 명령을 통해 복잡한 Windows 시스템 운영 및 구성을 처리합니다.
교차 애플리케이션 워크플로우: 웹 페이지에서 데이터를 수집하고 스프레드시트 보고서를 생성하는 등 여러 애플리케이션에 걸쳐 작업을 실행합니다.
맞춤형 애플리케이션 제어: 데모 학습 및 문서를 통해 특수하거나 틈새 애플리케이션을 작동하도록 훈련할 수 있습니다.
장점
기존 자동화 도구에 비해 성공률이 더 높음
GUI 및 API 기반 액션의 유연한 조합
다양한 지식 소스를 통한 지속적인 학습 능력
가상 데스크톱 격리를 통한 비침해적 작동
단점
현재 Windows OS 환경으로 제한됨
API 키 및 구성 설정이 필요함
민감한 정보를 처리할 때 개인 정보 보호 문제가 있을 수 있음
UFO² 사용 방법
필수 구성 요소 설치: 시스템에 Python >= 3.10 및 Windows OS >= 10이 설치되어 있는지 확인합니다. 선택적으로 'conda create -n ufo python=3.10'으로 conda 환경을 만듭니다.
UFO 복제 및 설치: 'git clone https://github.com/microsoft/UFO.git'으로 리포지토리를 복제하고 UFO 디렉토리로 이동한 다음 'pip install -r requirements.txt'를 실행합니다.
LLM 설정 구성: ufo/config/config.yaml.template를 ufo/config/config.yaml로 복사하고 HostAgent 및 AppAgent 모두에 대한 API 키 및 엔드포인트를 포함하여 LLM 설정(OpenAI 또는 Azure OpenAI)을 구성합니다.
RAG 설정(선택 사항): config.yaml에서 선택적 RAG(Retrieval Augmented Generation) 기능을 구성합니다. 오프라인 도움말 문서, Bing 검색, 자체 경험 또는 사용자 데모를 포함할 수 있습니다.
UFO 실행: 대화형 모드의 경우 'python -m ufo --task <your_task_name>'을 실행하거나 직접 실행의 경우 'python -m ufo --task <your_task_name> -r \"<your_request>\"'를 실행하여 UFO를 시작합니다.
실행 모니터링: ./ufo/logs/<your_task_name>/ 디렉토리에서 실행 스크린샷과 요청/응답 로그를 확인하여 에이전트의 작업을 모니터링하거나 디버깅합니다.
지원 받기: 도움이 필요하면 microsoft.github.io/UFO/에서 문서를 확인하거나 GitHub 문제를 만들거나 기타 통신은 [email protected]으로 문의하십시오.
UFO² 자주 묻는 질문
UFO²는 데스크톱 AgentOS이며, Windows 데스크톱 OS에서 실행할 수 있는 차세대 에이전트 프레임워크입니다. 자연어 요청을 UI 중심 기능을 넘어 Windows에서 자동화되고 안정적인 다중 애플리케이션 워크플로로 전환하도록 설계되었습니다.