
Magma
Magma adalah model fondasi pertama Microsoft untuk agen AI multimodal yang menggabungkan kecerdasan verbal, spasial, dan temporal untuk menavigasi tugas kompleks di seluruh dunia digital dan fisik melalui pemahaman visi-bahasa, navigasi UI, dan kemampuan manipulasi robotik.
https://microsoft.github.io/Magma?ref=aipure&utm_source=aipure

Informasi Produk
Diperbarui:May 16, 2025
Tren Traffic Bulanan Magma
Magma mengalami peningkatan lalu lintas sebesar 10,0%, mencapai 1,07 juta kunjungan. Pertumbuhan moderat ini dapat dikaitkan dengan minat berkelanjutan terhadap perkembangan terkait GitHub, seperti kursus sertifikasi baru dan acara Microsoft Build 2025 yang akan datang, yang mungkin secara tidak langsung telah meningkatkan keterlibatan pengguna.
Apa itu Magma
Dikembangkan oleh Microsoft Research bekerja sama dengan beberapa universitas, Magma mewakili kemajuan signifikan dalam teknologi AI multimodal. Ia melampaui model visi-bahasa tradisional dengan tidak hanya mempertahankan kecerdasan verbal yang kuat untuk pemahaman dan komunikasi tetapi juga menggabungkan kecerdasan spasial untuk perencanaan dan pelaksanaan tindakan di lingkungan virtual dan fisik. Dirilis pada tahun 2025, Magma dirancang untuk menangani berbagai tugas mulai dari navigasi UI hingga manipulasi robot, menjadikannya model fondasi serbaguna yang menjembatani kesenjangan antara antarmuka digital dan interaksi dunia nyata.
Fitur Utama Magma
Magma adalah model fondasi terobosan dari Microsoft untuk agen AI multimodal yang menggabungkan kecerdasan verbal, spasial, dan temporal. Ia dapat memahami dan bertindak berdasarkan lingkungan digital dan fisik melalui arsitektur Set-of-Mark (SoM) dan Trace-of-Mark (ToM) yang unik. Model ini dilatih sebelumnya pada berbagai dataset termasuk gambar, video, dan data robotika, memungkinkannya untuk melakukan tugas mulai dari navigasi UI hingga manipulasi robot tanpa penyetelan halus khusus domain.
Pemahaman Multimodal: Mengintegrasikan kecerdasan verbal, spasial, dan temporal untuk memproses dan memahami berbagai jenis input termasuk teks, gambar, dan video
Arsitektur Set-of-Mark (SoM): Memungkinkan landasan tindakan yang efektif dalam gambar untuk tangkapan layar UI, manipulasi robot, dan interaksi video manusia dengan memprediksi tanda numerik untuk elemen yang dapat ditindaklanjuti
Teknologi Trace-of-Mark (ToM): Memungkinkan pemahaman dinamika video temporal dan prediksi keadaan masa depan, sangat berguna untuk manipulasi robot dan pemahaman tindakan manusia
Kemampuan Pembelajaran Zero-shot: Dapat melakukan berbagai tugas tanpa penyetelan halus khusus domain, menunjukkan kemampuan generalisasi yang kuat di berbagai domain
Kasus Penggunaan Magma
Navigasi UI: Membantu dalam menavigasi antarmuka pengguna web dan seluler, melakukan tugas seperti mengklik tombol, mengisi formulir, dan menyelesaikan interaksi pengguna
Manipulasi Robot: Mengontrol lengan robot untuk tugas seperti operasi ambil dan letakkan, manipulasi objek, dan urutan gerakan kompleks
Menjawab Pertanyaan Visual: Memberikan respons terperinci terhadap pertanyaan tentang gambar dan video, menunjukkan kemampuan penalaran spasial yang kuat
Interaksi Manusia-Robot: Memungkinkan interaksi alami antara manusia dan robot dengan memahami dan menjalankan perintah kompleks dalam pengaturan dunia nyata
Kelebihan
Kinerja serbaguna di berbagai domain tanpa penyetelan halus khusus
Kemampuan generalisasi yang kuat dari data pelatihan terbatas
Kemampuan penalaran spasial dan temporal tingkat lanjut
Kekurangan
Mungkin memerlukan sumber daya komputasi yang signifikan
Dibatasi oleh kualitas dan kuantitas data pelatihan yang tersedia
Masih dalam tahap awal pengembangan dan pengujian dunia nyata
Cara Menggunakan Magma
Instal Dependensi yang Diperlukan: Instal PyTorch, PIL (Python Imaging Library), dan pustaka Transformers menggunakan pip atau conda
Impor Pustaka yang Diperlukan: Impor torch, PIL, BytesIO, requests, dan kelas model yang diperlukan dari transformers
Muat Model dan Prosesor: Muat model dan prosesor Magma menggunakan AutoModelForCausalLM dan AutoProcessor dari 'microsoft/Magma-8B' dengan trust_remote_code=True
Pindahkan Model ke GPU: Transfer model ke perangkat CUDA menggunakan model.to('cuda') untuk pemrosesan yang lebih cepat
Siapkan Gambar Input: Muat dan proses gambar input menggunakan PIL dan konversikan ke format RGB jika diperlukan
Siapkan Format Percakapan: Buat struktur percakapan dengan peran sistem dan perintah pengguna mengikuti format yang disediakan
Proses Input: Gunakan prosesor untuk menyiapkan input untuk model termasuk teks dan gambar
Hasilkan Output: Lewatkan input yang diproses ke model untuk menghasilkan respons untuk tugas multimodal seperti menjawab pertanyaan visual, navigasi UI, atau kontrol robot
Tangani Output Model: Proses dan gunakan output model sesuai dengan kasus penggunaan spesifik Anda (generasi teks, prediksi tindakan, penalaran spasial, dll.)
FAQ Magma
Magma adalah model fondasi pertama Microsoft untuk agen AI multimodal, yang dirancang untuk menangani interaksi kompleks di lingkungan virtual dan nyata. Ini memperluas model visi-bahasa dengan menggabungkan kecerdasan verbal dengan kecerdasan spasial untuk melakukan tugas mulai dari navigasi UI hingga manipulasi robot.
Video Magma
Artikel Populer

5 Generator Karakter NSFW Terbaik di Tahun 2025
May 29, 2025

Google Veo 3: Generator Video AI Pertama yang Mendukung Audio Secara Native
May 28, 2025

5 Chatbot Pacar AI NSFW Gratis Terbaik yang Perlu Anda Coba—Ulasan Nyata AIPURE
May 27, 2025

SweetAI Chat vs CrushOn.AI: Pertarungan Utama Pacar AI NSFW di Tahun 2025
May 27, 2025
Analitik Situs Web Magma
Lalu Lintas & Peringkat Magma
1.1M
Kunjungan Bulanan
#52723
Peringkat Global
#1080
Peringkat Kategori
Tren Lalu Lintas: Feb 2025-Apr 2025
Wawasan Pengguna Magma
00:01:47
Rata-rata Durasi Kunjungan
2.4
Halaman Per Kunjungan
53.33%
Tingkat Pentalan Pengguna
Wilayah Teratas Magma
US: 19.93%
CN: 12.82%
IN: 10.96%
DE: 3.42%
GB: 3.2%
Others: 49.67%