Các khả năng chính của Magma là gì?

Magma có ba khả năng chính: 1) trí thông minh bằng lời nói (hiểu ngôn ngữ thị giác), 2) trí thông minh không gian (khả năng lập kế hoạch và hành động trong thế giới không gian thị giác) và 3) hoàn thành nhiệm vụ của tác nhân (điều hướng giao diện người dùng và điều khiển robot). Nó có thể xử lý các tác vụ trên cả thế giới kỹ thuật số và vật lý.

Quá trình huấn luyện trước của Magma hoạt động như thế nào?

Magma được huấn luyện trước trên các tập dữ liệu không đồng nhất lớn bao gồm hình ảnh, video và dữ liệu robot. Nó sử dụng bộ mã hóa thị giác chung cho hình ảnh và video, mã hóa văn bản và sử dụng Set-of-Mark (SoM) cho các đối tượng có thể hành động và Trace-of-Mark (ToM) cho chuyển động của đối tượng. Các mã thông báo này sau đó được đưa vào LLM để tạo ra kết quả.

Magma có thể thực hiện những loại tác vụ nào?

Magma có thể thực hiện nhiều tác vụ khác nhau bao gồm điều hướng giao diện người dùng (web và thiết bị di động), điều khiển robot (như các thao tác gắp và đặt), suy luận không gian, hiểu đa phương thức và trả lời câu hỏi bằng video. Nó đã cho thấy hiệu suất hiện đại trong các lĩnh vực này, đặc biệt là trong các tác vụ điều hướng giao diện người dùng và điều khiển robot.

Magma hoạt động như thế nào so với các mô hình khác?

Magma liên tục vượt trội hơn các mô hình trước đó trong các tác vụ cụ thể. Nó tạo ra kết quả hiện đại mới trên các tác vụ điều hướng giao diện người dùng và điều khiển robot, vượt trội hơn các mô hình chuyên dụng. Trong các điểm chuẩn QA video, nó hoạt động cạnh tranh với các mô hình như Video-Llama2 và ShareGPT4Video, mặc dù sử dụng ít dữ liệu huấn luyện hơn.

Magma

WebsiteContact for PricingLarge Language Models (LLMs)

Magma là mô hình nền tảng đầu tiên của Microsoft dành cho các tác nhân AI đa phương thức, kết hợp trí thông minh bằng lời nói, không gian và thời gian để điều hướng các tác vụ phức tạp trên cả thế giới kỹ thuật số và vật lý thông qua khả năng hiểu ngôn ngữ thị giác, điều hướng UI và điều khiển robot.

Truy cập Trang web

Quảng Cáo Công Cụ Này

https://microsoft.github.io/Magma?ref=aipure&utm_source=aipure

Tổng quan
Phân tích
Video
Các lựa chọn thay thế

Thông tin Sản phẩm

Đã cập nhật:Jul 15, 2025

Xu hướng Lưu lượng Truy cập Hàng tháng của Magma

Magma đã trải qua sự sụt giảm 6.0% về lưu lượng truy cập, đạt 896K lượt truy cập. Sự sụt giảm này có thể là do những cập nhật và tin tức quan trọng từ Microsoft Build 2025, đặc biệt là việc ra mắt trợ lý lập trình mới của GitHub Copilot và việc triển khai mã nguồn mở của nó trong Visual Studio Code, điều này có thể đã thu hút sự chú ý và lưu lượng truy cập khỏi Magma.

Xem lịch sử lưu lượng truy cập

Magma là gì

Được phát triển bởi Microsoft Research với sự hợp tác của một số trường đại học, Magma đại diện cho một bước tiến đáng kể trong công nghệ AI đa phương thức. Nó mở rộng ra ngoài các mô hình ngôn ngữ thị giác truyền thống bằng cách không chỉ duy trì trí thông minh bằng lời nói mạnh mẽ để hiểu và giao tiếp mà còn kết hợp trí thông minh không gian để lập kế hoạch và thực hiện các hành động trong cả môi trường ảo và vật lý. Được phát hành vào năm 2025, Magma được thiết kế để xử lý các tác vụ đa dạng từ điều hướng UI đến điều khiển robot, khiến nó trở thành một mô hình nền tảng linh hoạt, thu hẹp khoảng cách giữa giao diện kỹ thuật số và tương tác thế giới thực.

Các Tính năng Chính của Magma

Magma là mô hình nền tảng đột phá của Microsoft dành cho các tác nhân AI đa phương thức, kết hợp trí thông minh bằng lời nói, không gian và thời gian. Nó có thể hiểu và hành động trên cả môi trường kỹ thuật số và vật lý thông qua kiến trúc Set-of-Mark (SoM) và Trace-of-Mark (ToM) độc đáo. Mô hình này được huấn luyện trước trên các tập dữ liệu đa dạng bao gồm hình ảnh, video và dữ liệu robot, cho phép nó thực hiện các tác vụ từ điều hướng giao diện người dùng đến điều khiển robot mà không cần tinh chỉnh theo miền cụ thể.

Hiểu đa phương thức: Tích hợp trí thông minh bằng lời nói, không gian và thời gian để xử lý và hiểu các loại đầu vào khác nhau bao gồm văn bản, hình ảnh và video

Kiến trúc Set-of-Mark (SoM): Cho phép tiếp đất hành động hiệu quả trong hình ảnh cho ảnh chụp màn hình giao diện người dùng, điều khiển robot và tương tác video của con người bằng cách dự đoán các dấu số cho các yếu tố có thể hành động

Công nghệ Trace-of-Mark (ToM): Cho phép hiểu động lực video theo thời gian và dự đoán trạng thái tương lai, đặc biệt hữu ích cho việc điều khiển robot và sự hiểu biết về hành động của con người

Khả năng học Zero-shot: Có thể thực hiện các tác vụ khác nhau mà không cần tinh chỉnh theo miền cụ thể, thể hiện khả năng khái quát hóa mạnh mẽ trên các miền khác nhau

Các Trường hợp Sử dụng của Magma

Điều hướng giao diện người dùng: Hỗ trợ điều hướng cả giao diện người dùng web và di động, thực hiện các tác vụ như nhấp vào nút, điền vào biểu mẫu và hoàn thành các tương tác của người dùng

Điều khiển robot: Điều khiển cánh tay robot cho các tác vụ như thao tác gắp và đặt, điều khiển đối tượng và các chuỗi chuyển động phức tạp

Trả lời câu hỏi trực quan: Cung cấp các phản hồi chi tiết cho các câu hỏi về hình ảnh và video, thể hiện khả năng suy luận không gian mạnh mẽ

Tương tác giữa người và robot: Cho phép tương tác tự nhiên giữa người và robot bằng cách hiểu và thực hiện các lệnh phức tạp trong môi trường thực tế

Ưu điểm

Hiệu suất linh hoạt trên nhiều miền mà không cần tinh chỉnh cụ thể

Khả năng khái quát hóa mạnh mẽ từ dữ liệu huấn luyện hạn chế

Khả năng suy luận không gian và thời gian nâng cao

Nhược điểm

Có thể yêu cầu tài nguyên tính toán đáng kể

Bị giới hạn bởi chất lượng và số lượng dữ liệu huấn luyện có sẵn

Vẫn còn trong giai đoạn đầu phát triển và thử nghiệm trong thế giới thực

Cách Sử dụng Magma

Cài đặt các phụ thuộc cần thiết: Cài đặt PyTorch, PIL (Thư viện hình ảnh Python) và thư viện Transformers bằng pip hoặc conda

Nhập các thư viện cần thiết: Nhập torch, PIL, BytesIO, requests và các lớp mô hình cần thiết từ transformers

Tải mô hình và bộ xử lý: Tải mô hình và bộ xử lý Magma bằng AutoModelForCausalLM và AutoProcessor từ 'microsoft/Magma-8B' với trust_remote_code=True

Di chuyển mô hình sang GPU: Chuyển mô hình sang thiết bị CUDA bằng model.to('cuda') để xử lý nhanh hơn

Chuẩn bị hình ảnh đầu vào: Tải và xử lý hình ảnh đầu vào bằng PIL và chuyển đổi nó sang định dạng RGB nếu cần

Thiết lập định dạng hội thoại: Tạo cấu trúc hội thoại với vai trò hệ thống và lời nhắc của người dùng theo định dạng được cung cấp

Xử lý đầu vào: Sử dụng bộ xử lý để chuẩn bị đầu vào cho mô hình bao gồm cả văn bản và hình ảnh

Tạo đầu ra: Chuyển đầu vào đã xử lý cho mô hình để tạo phản hồi cho các tác vụ đa phương thức như trả lời câu hỏi trực quan, điều hướng UI hoặc điều khiển robot

Xử lý đầu ra của mô hình: Xử lý và sử dụng đầu ra của mô hình theo trường hợp sử dụng cụ thể của bạn (tạo văn bản, dự đoán hành động, lý luận không gian, v.v.)

Câu hỏi Thường gặp về Magma

Magma là mô hình nền tảng đầu tiên của Microsoft dành cho các tác nhân AI đa phương thức, được thiết kế để xử lý các tương tác phức tạp trên cả môi trường ảo và thực. Nó mở rộng các mô hình ngôn ngữ thị giác bằng cách kết hợp trí thông minh bằng lời nói với trí thông minh không gian để thực hiện các tác vụ từ điều hướng giao diện người dùng đến điều khiển robot.

Video Magma

Bài viết phổ biến

Atoms: Nền tảng AI đa tác nhân biến ý tưởng thành sản phẩm sẵn sàng ra mắt

May 22, 2026

Nano Banana SBTI: Nó là gì, Cách thức hoạt động và Cách sử dụng nó vào năm 2026

Apr 15, 2026

Đánh giá Atoms — Trình tạo sản phẩm AI định nghĩa lại việc tạo nội dung số vào năm 2026

Apr 10, 2026

Kilo Claw: Cách Triển Khai và Sử Dụng AI Agent "Làm-Thay-Bạn" Thực Sự (Cập Nhật 2026)

Apr 3, 2026

Phân tích Trang web Magma

Lưu lượng truy cập & Xếp hạng của Magma

896.3K

Lượt truy cập hàng tháng

#59613

Xếp hạng Toàn cầu

#1189

Xếp hạng Danh mục

Xu hướng Lưu lượng truy cập: Feb 2025-Jun 2025

Thông tin chi tiết về Người dùng Magma

00:01:35

Thời lượng Truy cập Trung bình

2.42

Số trang mỗi lần Truy cập

54.65%

Tỷ lệ Thoát của Người dùng

Khu vực Hàng đầu của Magma

US: 18.21%

IN: 11.14%

CN: 9.55%

DE: 4.87%

GB: 3.46%

Others: 52.77%

Công cụ AI Mới nhất Tương tự Magma

Athena AI

FreemiumAI Productivity Tools Large Language Models (LLMs)

Athena AI là một nền tảng đa năng được hỗ trợ bởi AI cung cấp hỗ trợ học tập cá nhân hóa, giải pháp kinh doanh và huấn luyện cuộc sống thông qua các tính năng như phân tích tài liệu, tạo bài kiểm tra, thẻ ghi nhớ và khả năng trò chuyện tương tác.

Aguru AI

Free TrialMonitor & Log Management Large Language Models (LLMs)

Aguru AI là một giải pháp phần mềm tại chỗ cung cấp các công cụ giám sát, bảo mật và tối ưu hóa toàn diện cho các ứng dụng dựa trên LLM với các tính năng như theo dõi hành vi, phát hiện bất thường và tối ưu hóa hiệu suất.

GOAT AI

FreemiumSummarizer Large Language Models (LLMs)

GOAT AI là một nền tảng được hỗ trợ bởi AI cung cấp khả năng tóm tắt một cú nhấp chuột cho nhiều loại nội dung bao gồm bài báo, tài liệu nghiên cứu và video, đồng thời cũng cung cấp khả năng điều phối đại lý AI tiên tiến cho các nhiệm vụ cụ thể theo miền.

GiGOS

Free TrialLarge Language Models (LLMs)Multi-purpose Tools

GiGOS là một nền tảng AI cung cấp quyền truy cập vào nhiều mô hình ngôn ngữ tiên tiến như Gemini, GPT-4, Claude và Grok với giao diện trực quan để người dùng tương tác và so sánh các mô hình AI khác nhau.

Công cụ AI Phổ biến Giống Magma

GPT‑5.5 | ChatGPT Official

Large Language Models (LLMs)AI Chatbot

GPT-5.5 trong ChatGPT là mô hình tập trung vào công việc mới nhất của OpenAI được thiết kế để hiểu các mục tiêu phức tạp, sử dụng các công cụ hiệu quả, kiểm tra công việc của nó và thực hiện các tác vụ nhiều bước (viết mã, nghiên cứu, tài liệu, bảng tính) cho đến khi hoàn thành với các biện pháp bảo vệ mạnh mẽ hơn.

SearchGPT

Free TrialAI Search Engine Large Language Models (LLMs)

SearchGPT là một nguyên mẫu tìm kiếm được hỗ trợ bởi AI của OpenAI, cung cấp câu trả lời nhanh chóng, trò chuyện với các nguồn rõ ràng sử dụng các mô hình GPT.

ContextGem

FreeAI Data Mining Large Language Models (LLMs)

ContextGem là một framework LLM mã nguồn mở, miễn phí, giúp đơn giản hóa việc trích xuất dữ liệu có cấu trúc và thông tin chi tiết từ tài liệu với mã tối thiểu thông qua các trừu tượng tích hợp mạnh mẽ và các tính năng tự động.

AI CLI

FreeAI Code Assistant Large Language Models (LLMs)

AI CLI là một công cụ giao diện dòng lệnh mã nguồn mở mang các khả năng AI trực tiếp đến terminal của bạn, cho phép bạn tương tác với các mô hình AI khác nhau như GPT của OpenAI và Claude của Anthropic thông qua các lệnh đơn giản.

Xếp hạng

Đăng & Quảng báNew