Apa kemampuan utama Magma?

Magma memiliki tiga kemampuan utama: 1) kecerdasan verbal (pemahaman visi-bahasa), 2) kecerdasan spasial (kemampuan untuk merencanakan dan bertindak di dunia visual-spasial), dan 3) penyelesaian tugas agentik (navigasi UI dan manipulasi robot). Ia dapat menangani tugas di dunia digital dan fisik.

Bagaimana cara kerja pelatihan awal Magma?

Magma dilatih sebelumnya pada dataset heterogen besar termasuk gambar, video, dan data robotika. Ia menggunakan encoder visi bersama untuk gambar dan video, melakukan tokenisasi teks, dan menggunakan Set-of-Mark (SoM) untuk objek yang dapat ditindaklanjuti dan Trace-of-Mark (ToM) untuk pergerakan objek. Token ini kemudian dimasukkan ke dalam LLM untuk menghasilkan keluaran.

Jenis tugas apa yang dapat dilakukan Magma?

Magma dapat melakukan berbagai tugas termasuk navigasi UI (web dan seluler), manipulasi robot (seperti operasi ambil dan letakkan), penalaran spasial, pemahaman multimodal, dan tanya jawab video. Ia telah menunjukkan kinerja terbaik di bidang ini, terutama dalam tugas navigasi UI dan manipulasi robot.

Bagaimana kinerja Magma dibandingkan dengan model lain?

Magma secara konsisten mengungguli model sebelumnya dalam tugas-tugas tertentu. Ia menciptakan hasil terbaik baru pada tugas navigasi UI dan manipulasi robot, mengungguli model khusus. Dalam tolok ukur QA video, ia berkinerja kompetitif melawan model seperti Video-Llama2 dan ShareGPT4Video, meskipun menggunakan lebih sedikit data pelatihan.

Magma

WebsiteContact for PricingLarge Language Models (LLMs)

Magma adalah model fondasi pertama Microsoft untuk agen AI multimodal yang menggabungkan kecerdasan verbal, spasial, dan temporal untuk menavigasi tugas kompleks di seluruh dunia digital dan fisik melalui pemahaman visi-bahasa, navigasi UI, dan kemampuan manipulasi robotik.

Kunjungi Situs Web

Iklankan Alat Ini

https://microsoft.github.io/Magma?ref=aipure&utm_source=aipure

Ikhtisar
Analitik
Video
Alternatif

Informasi Produk

Diperbarui:Jul 15, 2025

Tren Traffic Bulanan Magma

Magma mengalami penurunan lalu lintas sebesar 6,0%, mencapai 896 ribu kunjungan. Penurunan ini mungkin disebabkan oleh pembaruan dan berita penting dari Microsoft Build 2025, khususnya peluncuran agen coding baru GitHub Copilot dan implementasi open-source-nya di Visual Studio Code, yang dapat menarik perhatian dan lalu lintas dari Magma.

Lihat riwayat traffic

Apa itu Magma

Dikembangkan oleh Microsoft Research bekerja sama dengan beberapa universitas, Magma mewakili kemajuan signifikan dalam teknologi AI multimodal. Ia melampaui model visi-bahasa tradisional dengan tidak hanya mempertahankan kecerdasan verbal yang kuat untuk pemahaman dan komunikasi tetapi juga menggabungkan kecerdasan spasial untuk perencanaan dan pelaksanaan tindakan di lingkungan virtual dan fisik. Dirilis pada tahun 2025, Magma dirancang untuk menangani berbagai tugas mulai dari navigasi UI hingga manipulasi robot, menjadikannya model fondasi serbaguna yang menjembatani kesenjangan antara antarmuka digital dan interaksi dunia nyata.

Fitur Utama Magma

Magma adalah model fondasi terobosan dari Microsoft untuk agen AI multimodal yang menggabungkan kecerdasan verbal, spasial, dan temporal. Ia dapat memahami dan bertindak berdasarkan lingkungan digital dan fisik melalui arsitektur Set-of-Mark (SoM) dan Trace-of-Mark (ToM) yang unik. Model ini dilatih sebelumnya pada berbagai dataset termasuk gambar, video, dan data robotika, memungkinkannya untuk melakukan tugas mulai dari navigasi UI hingga manipulasi robot tanpa penyetelan halus khusus domain.

Pemahaman Multimodal: Mengintegrasikan kecerdasan verbal, spasial, dan temporal untuk memproses dan memahami berbagai jenis input termasuk teks, gambar, dan video

Arsitektur Set-of-Mark (SoM): Memungkinkan landasan tindakan yang efektif dalam gambar untuk tangkapan layar UI, manipulasi robot, dan interaksi video manusia dengan memprediksi tanda numerik untuk elemen yang dapat ditindaklanjuti

Teknologi Trace-of-Mark (ToM): Memungkinkan pemahaman dinamika video temporal dan prediksi keadaan masa depan, sangat berguna untuk manipulasi robot dan pemahaman tindakan manusia

Kemampuan Pembelajaran Zero-shot: Dapat melakukan berbagai tugas tanpa penyetelan halus khusus domain, menunjukkan kemampuan generalisasi yang kuat di berbagai domain

Kasus Penggunaan Magma

Navigasi UI: Membantu dalam menavigasi antarmuka pengguna web dan seluler, melakukan tugas seperti mengklik tombol, mengisi formulir, dan menyelesaikan interaksi pengguna

Manipulasi Robot: Mengontrol lengan robot untuk tugas seperti operasi ambil dan letakkan, manipulasi objek, dan urutan gerakan kompleks

Menjawab Pertanyaan Visual: Memberikan respons terperinci terhadap pertanyaan tentang gambar dan video, menunjukkan kemampuan penalaran spasial yang kuat

Interaksi Manusia-Robot: Memungkinkan interaksi alami antara manusia dan robot dengan memahami dan menjalankan perintah kompleks dalam pengaturan dunia nyata

Kelebihan

Kinerja serbaguna di berbagai domain tanpa penyetelan halus khusus

Kemampuan generalisasi yang kuat dari data pelatihan terbatas

Kemampuan penalaran spasial dan temporal tingkat lanjut

Kekurangan

Mungkin memerlukan sumber daya komputasi yang signifikan

Dibatasi oleh kualitas dan kuantitas data pelatihan yang tersedia

Masih dalam tahap awal pengembangan dan pengujian dunia nyata

Cara Menggunakan Magma

Instal Dependensi yang Diperlukan: Instal PyTorch, PIL (Python Imaging Library), dan pustaka Transformers menggunakan pip atau conda

Impor Pustaka yang Diperlukan: Impor torch, PIL, BytesIO, requests, dan kelas model yang diperlukan dari transformers

Muat Model dan Prosesor: Muat model dan prosesor Magma menggunakan AutoModelForCausalLM dan AutoProcessor dari 'microsoft/Magma-8B' dengan trust_remote_code=True

Pindahkan Model ke GPU: Transfer model ke perangkat CUDA menggunakan model.to('cuda') untuk pemrosesan yang lebih cepat

Siapkan Gambar Input: Muat dan proses gambar input menggunakan PIL dan konversikan ke format RGB jika diperlukan

Siapkan Format Percakapan: Buat struktur percakapan dengan peran sistem dan perintah pengguna mengikuti format yang disediakan

Proses Input: Gunakan prosesor untuk menyiapkan input untuk model termasuk teks dan gambar

Hasilkan Output: Lewatkan input yang diproses ke model untuk menghasilkan respons untuk tugas multimodal seperti menjawab pertanyaan visual, navigasi UI, atau kontrol robot

Tangani Output Model: Proses dan gunakan output model sesuai dengan kasus penggunaan spesifik Anda (generasi teks, prediksi tindakan, penalaran spasial, dll.)

FAQ Magma

Magma adalah model fondasi pertama Microsoft untuk agen AI multimodal, yang dirancang untuk menangani interaksi kompleks di lingkungan virtual dan nyata. Ini memperluas model visi-bahasa dengan menggabungkan kecerdasan verbal dengan kecerdasan spasial untuk melakukan tugas mulai dari navigasi UI hingga manipulasi robot.

Video Magma

Artikel Populer

Atoms: Platform AI Multi-Agen yang Mengubah Ide menjadi Produk Siap Diluncurkan

May 22, 2026

Nano Banana SBTI: Apa Itu, Bagaimana Cara Kerjanya, dan Cara Menggunakannya di Tahun 2026

Apr 15, 2026

Ulasan Atoms — Pembuat Produk AI yang Mendefinisikan Ulang Kreasi Digital di Tahun 2026

Apr 10, 2026

Kilo Claw: Cara Menerapkan dan Menggunakan Agen AI "Lakukan-Untuk-Anda" Sejati (Pembaruan 2026)

Apr 3, 2026

Analitik Situs Web Magma

Lalu Lintas & Peringkat Magma

896.3K

Kunjungan Bulanan

#59613

Peringkat Global

#1189

Peringkat Kategori

Tren Lalu Lintas: Feb 2025-Jun 2025

Wawasan Pengguna Magma

00:01:35

Rata-rata Durasi Kunjungan

2.42

Halaman Per Kunjungan

54.65%

Tingkat Pentalan Pengguna

Wilayah Teratas Magma

US: 18.21%

IN: 11.14%

CN: 9.55%

DE: 4.87%

GB: 3.46%

Others: 52.77%

Alat AI Terbaru Serupa dengan Magma

Athena AI

FreemiumAI Productivity Tools Large Language Models (LLMs)

Athena AI adalah platform bertenaga AI yang serbaguna yang menawarkan bantuan belajar yang dipersonalisasi, solusi bisnis, dan pelatihan hidup melalui fitur seperti analisis dokumen, pembuatan kuis, kartu flash, dan kemampuan obrolan interaktif.

Aguru AI

Free TrialMonitor & Log Management Large Language Models (LLMs)

Aguru AI adalah solusi perangkat lunak on-premises yang menyediakan pemantauan komprehensif, keamanan, dan alat optimisasi untuk aplikasi berbasis LLM dengan fitur seperti pelacakan perilaku, deteksi anomali, dan optimisasi kinerja.

GOAT AI

FreemiumSummarizer Large Language Models (LLMs)

GOAT AI adalah platform yang didukung AI yang menyediakan kemampuan ringkasan satu klik untuk berbagai jenis konten termasuk artikel berita, makalah penelitian, dan video, sambil juga menawarkan orkestrasi agen AI canggih untuk tugas spesifik domain.

GiGOS

Free TrialLarge Language Models (LLMs)Multi-purpose Tools

GiGOS adalah platform AI yang menyediakan akses ke berbagai model bahasa canggih seperti Gemini, GPT-4, Claude, dan Grok dengan antarmuka intuitif bagi pengguna untuk berinteraksi dan membandingkan berbagai model AI.

Alat AI Populer Seperti Magma

GPT‑5.5 | ChatGPT Official

Large Language Models (LLMs)AI Chatbot

GPT-5.5 di ChatGPT adalah model terbaru yang berfokus pada pekerjaan dari OpenAI yang dirancang untuk memahami tujuan yang kompleks, menggunakan alat secara efektif, memeriksa pekerjaannya, dan melaksanakan tugas multi-langkah (pengkodean, penelitian, dokumen, spreadsheet) hingga selesai dengan perlindungan yang lebih kuat.

SearchGPT

Free TrialAI Search Engine Large Language Models (LLMs)

SearchGPT adalah prototipe pencarian yang didukung AI oleh OpenAI yang memberikan jawaban cepat, percakapan dengan sumber yang jelas menggunakan model GPT.

ContextGem

FreeAI Data Mining Large Language Models (LLMs)

ContextGem adalah framework LLM open-source gratis yang menyederhanakan data terstruktur dan ekstraksi wawasan dari dokumen dengan kode minimal melalui abstraksi bawaan yang kuat dan fitur otomatis.

AI CLI

FreeAI Code Assistant Large Language Models (LLMs)

AI CLI adalah alat antarmuka baris perintah sumber terbuka yang membawa kemampuan AI langsung ke terminal Anda, memungkinkan Anda untuk berinteraksi dengan berbagai model AI seperti GPT OpenAI dan Claude Anthropic melalui perintah sederhana.

Peringkat

Kirim & PromosikanNew