UFO² là Desktop AgentOS thế hệ tiếp theo của Microsoft, chuyển đổi các yêu cầu ngôn ngữ tự nhiên thành các quy trình làm việc đa ứng dụng tự động, đáng tin cậy trên Windows, kết hợp tự động hóa giao diện người dùng, tích hợp API gốc và điều phối đa tác nhân.
https://github.com/microsoft/UFO?ref=aipure&utm_source=aipure
UFO²

Thông tin Sản phẩm

Đã cập nhật:May 16, 2025

UFO² là gì

UFO² (Desktop AgentOS) là một dự án mã nguồn mở được phát triển bởi Microsoft, thể hiện một bước tiến lớn so với framework UFO ban đầu. Nó đóng vai trò như một hệ thống đa tác nhân toàn diện được thiết kế để tự động hóa các hoạt động Windows thông qua các lệnh ngôn ngữ tự nhiên. Được phát hành vào tháng 4 năm 2025, UFO² tích hợp với Windows OS (phiên bản 10 trở lên) và yêu cầu Python 3.10 trở lên. Framework này không phải là một tính năng chính thức của Windows mà là một nền tảng thử nghiệm thể hiện các khả năng tự động hóa nâng cao thông qua sự kết hợp của các mô hình ngôn ngữ lớn, thị giác máy tính và tích hợp hệ thống.

Các Tính năng Chính của UFO²

UFO² (Desktop AgentOS) là một framework đa tác nhân tập trung vào giao diện người dùng tiên tiến dành cho hệ điều hành Windows, chuyển đổi các yêu cầu bằng ngôn ngữ tự nhiên thành quy trình làm việc tự động. Nó kết hợp tích hợp hệ điều hành sâu, các hành động GUI và API hỗn hợp, và một hệ thống kiến thức liên tục để thực hiện các tác vụ phức tạp trên nhiều ứng dụng. Hệ thống có tính năng cách ly màn hình nền picture-in-picture, thực thi đa hành động mang tính suy đoán và phát hiện điều khiển tinh vi thông qua cả tự động hóa giao diện người dùng và nhận dạng hình ảnh.
Tích hợp hệ điều hành sâu: Kết hợp Windows UIA, Win32 và WinCOM để kiểm soát hệ thống toàn diện, cho phép cả tự động hóa GUI và các lệnh API trực tiếp
Màn hình nền Picture-in-Picture: Chạy các tác vụ tự động hóa trong một môi trường màn hình nền ảo biệt lập, cho phép người dùng tiếp tục làm việc trên màn hình chính của họ mà không bị gián đoạn
Điều phối đa tác nhân: Sử dụng HostAgent để quản lý lập kế hoạch tác vụ và nhiều AppAgent để xử lý các hoạt động cụ thể của ứng dụng, cho phép các quy trình làm việc đa ứng dụng phức tạp
Hệ thống lớp nền kiến thức: Tích hợp nhiều nguồn kiến thức bao gồm tài liệu ngoại tuyến, tìm kiếm trực tuyến, trình diễn của người dùng và dấu vết thực thi thông qua công nghệ RAG

Các Trường hợp Sử dụng của UFO²

Tự động hóa văn phòng: Tự động hóa các tác vụ thông thường trên các ứng dụng Microsoft Office, chẳng hạn như nhập dữ liệu, định dạng tài liệu và quản lý email
Quản trị hệ thống: Xử lý các hoạt động và cấu hình hệ thống Windows phức tạp thông qua các lệnh bằng ngôn ngữ tự nhiên
Quy trình làm việc đa ứng dụng: Thực hiện các tác vụ trải rộng trên nhiều ứng dụng, chẳng hạn như thu thập dữ liệu từ một trang web và tạo báo cáo bảng tính
Điều khiển ứng dụng tùy chỉnh: Có thể được đào tạo để vận hành các ứng dụng chuyên dụng hoặc thích hợp thông qua học tập trình diễn và tài liệu

Ưu điểm

Tỷ lệ thành công cao hơn so với các công cụ tự động hóa truyền thống
Kết hợp linh hoạt các hành động dựa trên GUI và API
Khả năng học hỏi liên tục thông qua nhiều nguồn kiến thức khác nhau
Hoạt động không xâm phạm thông qua cách ly màn hình nền ảo

Nhược điểm

Hiện tại chỉ giới hạn trong môi trường hệ điều hành Windows
Yêu cầu khóa API và thiết lập cấu hình
Có thể có lo ngại về quyền riêng tư khi xử lý thông tin nhạy cảm

Cách Sử dụng UFO²

Cài đặt các điều kiện tiên quyết: Đảm bảo bạn đã cài đặt Python >= 3.10 và Windows OS >= 10 trên hệ thống của mình. Tùy chọn tạo môi trường conda với 'conda create -n ufo python=3.10'
Sao chép và cài đặt UFO: Sao chép kho lưu trữ bằng 'git clone https://github.com/microsoft/UFO.git', điều hướng đến thư mục UFO và chạy 'pip install -r requirements.txt'
Cấu hình cài đặt LLM: Sao chép ufo/config/config.yaml.template sang ufo/config/config.yaml và định cấu hình cài đặt LLM của bạn (OpenAI hoặc Azure OpenAI) bao gồm khóa API và điểm cuối cho cả HostAgent và AppAgent
Thiết lập RAG (Tùy chọn): Định cấu hình các tính năng Retrieval Augmented Generation (RAG) tùy chọn trong config.yaml - có thể bao gồm tài liệu trợ giúp ngoại tuyến, tìm kiếm Bing, tự trải nghiệm hoặc trình diễn của người dùng
Khởi chạy UFO: Khởi động UFO bằng cách chạy 'python -m ufo --task <your_task_name>' cho chế độ tương tác hoặc 'python -m ufo --task <your_task_name> -r \"<your_request>\"' để thực thi trực tiếp
Giám sát thực thi: Kiểm tra thư mục ./ufo/logs/<your_task_name>/ để biết ảnh chụp màn hình thực thi và nhật ký yêu cầu/phản hồi để theo dõi hoặc gỡ lỗi các hành động của tác nhân
Nhận hỗ trợ: Để được trợ giúp, hãy kiểm tra tài liệu tại microsoft.github.io/UFO/, tạo các vấn đề trên GitHub hoặc liên hệ [email protected] để biết các thông tin liên lạc khác

Câu hỏi Thường gặp về UFO²

UFO² là một Desktop AgentOS, một thế hệ framework agent mới có thể chạy trên hệ điều hành Windows. Nó được thiết kế để biến các yêu cầu bằng ngôn ngữ tự nhiên thành các quy trình làm việc tự động, đáng tin cậy, đa ứng dụng trên Windows, vượt xa các khả năng tập trung vào giao diện người dùng.

Công cụ AI Mới nhất Tương tự UFO²

Athena AI
Athena AI
Athena AI là một nền tảng đa năng được hỗ trợ bởi AI cung cấp hỗ trợ học tập cá nhân hóa, giải pháp kinh doanh và huấn luyện cuộc sống thông qua các tính năng như phân tích tài liệu, tạo bài kiểm tra, thẻ ghi nhớ và khả năng trò chuyện tương tác.
Aguru AI
Aguru AI
Aguru AI là một giải pháp phần mềm tại chỗ cung cấp các công cụ giám sát, bảo mật và tối ưu hóa toàn diện cho các ứng dụng dựa trên LLM với các tính năng như theo dõi hành vi, phát hiện bất thường và tối ưu hóa hiệu suất.
GOAT AI
GOAT AI
GOAT AI là một nền tảng được hỗ trợ bởi AI cung cấp khả năng tóm tắt một cú nhấp chuột cho nhiều loại nội dung bao gồm bài báo, tài liệu nghiên cứu và video, đồng thời cũng cung cấp khả năng điều phối đại lý AI tiên tiến cho các nhiệm vụ cụ thể theo miền.
GiGOS
GiGOS
GiGOS là một nền tảng AI cung cấp quyền truy cập vào nhiều mô hình ngôn ngữ tiên tiến như Gemini, GPT-4, Claude và Grok với giao diện trực quan để người dùng tương tác và so sánh các mô hình AI khác nhau.