
Magma
Magma adalah model fondasi pertama Microsoft untuk agen AI multimodal yang menggabungkan kecerdasan verbal, spasial, dan temporal untuk menavigasi tugas kompleks di seluruh dunia digital dan fisik melalui pemahaman visi-bahasa, navigasi UI, dan kemampuan manipulasi robotik.
https://microsoft.github.io/Magma?ref=aipure&utm_source=aipure

Informasi Produk
Diperbarui:Jun 16, 2025
Tren Traffic Bulanan Magma
Magma mengalami penurunan lalu lintas sebesar 11,1%, mencapai 953 ribu kunjungan. Peluncuran agen coding baru GitHub Copilot pada Microsoft Build 2025, yang dapat menangani tugas-tugas seperti memperbaiki bug dan menambahkan fitur, mungkin telah menarik pengguna dari Magma.
Apa itu Magma
Dikembangkan oleh Microsoft Research bekerja sama dengan beberapa universitas, Magma mewakili kemajuan signifikan dalam teknologi AI multimodal. Ia melampaui model visi-bahasa tradisional dengan tidak hanya mempertahankan kecerdasan verbal yang kuat untuk pemahaman dan komunikasi tetapi juga menggabungkan kecerdasan spasial untuk perencanaan dan pelaksanaan tindakan di lingkungan virtual dan fisik. Dirilis pada tahun 2025, Magma dirancang untuk menangani berbagai tugas mulai dari navigasi UI hingga manipulasi robot, menjadikannya model fondasi serbaguna yang menjembatani kesenjangan antara antarmuka digital dan interaksi dunia nyata.
Fitur Utama Magma
Magma adalah model fondasi terobosan dari Microsoft untuk agen AI multimodal yang menggabungkan kecerdasan verbal, spasial, dan temporal. Ia dapat memahami dan bertindak berdasarkan lingkungan digital dan fisik melalui arsitektur Set-of-Mark (SoM) dan Trace-of-Mark (ToM) yang unik. Model ini dilatih sebelumnya pada berbagai dataset termasuk gambar, video, dan data robotika, memungkinkannya untuk melakukan tugas mulai dari navigasi UI hingga manipulasi robot tanpa penyetelan halus khusus domain.
Pemahaman Multimodal: Mengintegrasikan kecerdasan verbal, spasial, dan temporal untuk memproses dan memahami berbagai jenis input termasuk teks, gambar, dan video
Arsitektur Set-of-Mark (SoM): Memungkinkan landasan tindakan yang efektif dalam gambar untuk tangkapan layar UI, manipulasi robot, dan interaksi video manusia dengan memprediksi tanda numerik untuk elemen yang dapat ditindaklanjuti
Teknologi Trace-of-Mark (ToM): Memungkinkan pemahaman dinamika video temporal dan prediksi keadaan masa depan, sangat berguna untuk manipulasi robot dan pemahaman tindakan manusia
Kemampuan Pembelajaran Zero-shot: Dapat melakukan berbagai tugas tanpa penyetelan halus khusus domain, menunjukkan kemampuan generalisasi yang kuat di berbagai domain
Kasus Penggunaan Magma
Navigasi UI: Membantu dalam menavigasi antarmuka pengguna web dan seluler, melakukan tugas seperti mengklik tombol, mengisi formulir, dan menyelesaikan interaksi pengguna
Manipulasi Robot: Mengontrol lengan robot untuk tugas seperti operasi ambil dan letakkan, manipulasi objek, dan urutan gerakan kompleks
Menjawab Pertanyaan Visual: Memberikan respons terperinci terhadap pertanyaan tentang gambar dan video, menunjukkan kemampuan penalaran spasial yang kuat
Interaksi Manusia-Robot: Memungkinkan interaksi alami antara manusia dan robot dengan memahami dan menjalankan perintah kompleks dalam pengaturan dunia nyata
Kelebihan
Kinerja serbaguna di berbagai domain tanpa penyetelan halus khusus
Kemampuan generalisasi yang kuat dari data pelatihan terbatas
Kemampuan penalaran spasial dan temporal tingkat lanjut
Kekurangan
Mungkin memerlukan sumber daya komputasi yang signifikan
Dibatasi oleh kualitas dan kuantitas data pelatihan yang tersedia
Masih dalam tahap awal pengembangan dan pengujian dunia nyata
Cara Menggunakan Magma
Instal Dependensi yang Diperlukan: Instal PyTorch, PIL (Python Imaging Library), dan pustaka Transformers menggunakan pip atau conda
Impor Pustaka yang Diperlukan: Impor torch, PIL, BytesIO, requests, dan kelas model yang diperlukan dari transformers
Muat Model dan Prosesor: Muat model dan prosesor Magma menggunakan AutoModelForCausalLM dan AutoProcessor dari 'microsoft/Magma-8B' dengan trust_remote_code=True
Pindahkan Model ke GPU: Transfer model ke perangkat CUDA menggunakan model.to('cuda') untuk pemrosesan yang lebih cepat
Siapkan Gambar Input: Muat dan proses gambar input menggunakan PIL dan konversikan ke format RGB jika diperlukan
Siapkan Format Percakapan: Buat struktur percakapan dengan peran sistem dan perintah pengguna mengikuti format yang disediakan
Proses Input: Gunakan prosesor untuk menyiapkan input untuk model termasuk teks dan gambar
Hasilkan Output: Lewatkan input yang diproses ke model untuk menghasilkan respons untuk tugas multimodal seperti menjawab pertanyaan visual, navigasi UI, atau kontrol robot
Tangani Output Model: Proses dan gunakan output model sesuai dengan kasus penggunaan spesifik Anda (generasi teks, prediksi tindakan, penalaran spasial, dll.)
FAQ Magma
Magma adalah model fondasi pertama Microsoft untuk agen AI multimodal, yang dirancang untuk menangani interaksi kompleks di lingkungan virtual dan nyata. Ini memperluas model visi-bahasa dengan menggabungkan kecerdasan verbal dengan kecerdasan spasial untuk melakukan tugas mulai dari navigasi UI hingga manipulasi robot.
Video Magma
Artikel Populer

SweetAI Chat vs Secret Desires: Pembuat Partner AI Mana yang Tepat untuk Anda?
Jul 10, 2025

Cara Membuat Video Hewan AI Viral di Tahun 2025: Panduan Langkah demi Langkah
Jul 3, 2025

Alternatif SweetAI Chat Terbaik di 2025: Perbandingan Platform Obrolan AI Girlfriend & NSFW Terbaik
Jun 30, 2025

Cara Membuat Video AI ASMR Viral dalam 5 Menit (Tanpa Mikrofon, Tanpa Kamera) | 2025
Jun 23, 2025
Analitik Situs Web Magma
Lalu Lintas & Peringkat Magma
896.3K
Kunjungan Bulanan
#59613
Peringkat Global
#1189
Peringkat Kategori
Tren Lalu Lintas: Feb 2025-Jun 2025
Wawasan Pengguna Magma
00:01:35
Rata-rata Durasi Kunjungan
2.42
Halaman Per Kunjungan
54.65%
Tingkat Pentalan Pengguna
Wilayah Teratas Magma
US: 18.21%
IN: 11.14%
CN: 9.55%
DE: 4.87%
GB: 3.46%
Others: 52.77%