Magma

Magma

WebsiteContact for PricingLarge Language Models (LLMs)
Magma adalah model fondasi pertama Microsoft untuk agen AI multimodal yang menggabungkan kecerdasan verbal, spasial, dan temporal untuk menavigasi tugas kompleks di seluruh dunia digital dan fisik melalui pemahaman visi-bahasa, navigasi UI, dan kemampuan manipulasi robotik.
https://microsoft.github.io/Magma?ref=aipure&utm_source=aipure
Magma

Informasi Produk

Diperbarui:May 16, 2025

Tren Traffic Bulanan Magma

Magma mengalami peningkatan lalu lintas sebesar 10,0%, mencapai 1,07 juta kunjungan. Pertumbuhan moderat ini dapat dikaitkan dengan minat berkelanjutan terhadap perkembangan terkait GitHub, seperti kursus sertifikasi baru dan acara Microsoft Build 2025 yang akan datang, yang mungkin secara tidak langsung telah meningkatkan keterlibatan pengguna.

Lihat riwayat traffic

Apa itu Magma

Dikembangkan oleh Microsoft Research bekerja sama dengan beberapa universitas, Magma mewakili kemajuan signifikan dalam teknologi AI multimodal. Ia melampaui model visi-bahasa tradisional dengan tidak hanya mempertahankan kecerdasan verbal yang kuat untuk pemahaman dan komunikasi tetapi juga menggabungkan kecerdasan spasial untuk perencanaan dan pelaksanaan tindakan di lingkungan virtual dan fisik. Dirilis pada tahun 2025, Magma dirancang untuk menangani berbagai tugas mulai dari navigasi UI hingga manipulasi robot, menjadikannya model fondasi serbaguna yang menjembatani kesenjangan antara antarmuka digital dan interaksi dunia nyata.

Fitur Utama Magma

Magma adalah model fondasi terobosan dari Microsoft untuk agen AI multimodal yang menggabungkan kecerdasan verbal, spasial, dan temporal. Ia dapat memahami dan bertindak berdasarkan lingkungan digital dan fisik melalui arsitektur Set-of-Mark (SoM) dan Trace-of-Mark (ToM) yang unik. Model ini dilatih sebelumnya pada berbagai dataset termasuk gambar, video, dan data robotika, memungkinkannya untuk melakukan tugas mulai dari navigasi UI hingga manipulasi robot tanpa penyetelan halus khusus domain.
Pemahaman Multimodal: Mengintegrasikan kecerdasan verbal, spasial, dan temporal untuk memproses dan memahami berbagai jenis input termasuk teks, gambar, dan video
Arsitektur Set-of-Mark (SoM): Memungkinkan landasan tindakan yang efektif dalam gambar untuk tangkapan layar UI, manipulasi robot, dan interaksi video manusia dengan memprediksi tanda numerik untuk elemen yang dapat ditindaklanjuti
Teknologi Trace-of-Mark (ToM): Memungkinkan pemahaman dinamika video temporal dan prediksi keadaan masa depan, sangat berguna untuk manipulasi robot dan pemahaman tindakan manusia
Kemampuan Pembelajaran Zero-shot: Dapat melakukan berbagai tugas tanpa penyetelan halus khusus domain, menunjukkan kemampuan generalisasi yang kuat di berbagai domain

Kasus Penggunaan Magma

Navigasi UI: Membantu dalam menavigasi antarmuka pengguna web dan seluler, melakukan tugas seperti mengklik tombol, mengisi formulir, dan menyelesaikan interaksi pengguna
Manipulasi Robot: Mengontrol lengan robot untuk tugas seperti operasi ambil dan letakkan, manipulasi objek, dan urutan gerakan kompleks
Menjawab Pertanyaan Visual: Memberikan respons terperinci terhadap pertanyaan tentang gambar dan video, menunjukkan kemampuan penalaran spasial yang kuat
Interaksi Manusia-Robot: Memungkinkan interaksi alami antara manusia dan robot dengan memahami dan menjalankan perintah kompleks dalam pengaturan dunia nyata

Kelebihan

Kinerja serbaguna di berbagai domain tanpa penyetelan halus khusus
Kemampuan generalisasi yang kuat dari data pelatihan terbatas
Kemampuan penalaran spasial dan temporal tingkat lanjut

Kekurangan

Mungkin memerlukan sumber daya komputasi yang signifikan
Dibatasi oleh kualitas dan kuantitas data pelatihan yang tersedia
Masih dalam tahap awal pengembangan dan pengujian dunia nyata

Cara Menggunakan Magma

Instal Dependensi yang Diperlukan: Instal PyTorch, PIL (Python Imaging Library), dan pustaka Transformers menggunakan pip atau conda
Impor Pustaka yang Diperlukan: Impor torch, PIL, BytesIO, requests, dan kelas model yang diperlukan dari transformers
Muat Model dan Prosesor: Muat model dan prosesor Magma menggunakan AutoModelForCausalLM dan AutoProcessor dari 'microsoft/Magma-8B' dengan trust_remote_code=True
Pindahkan Model ke GPU: Transfer model ke perangkat CUDA menggunakan model.to('cuda') untuk pemrosesan yang lebih cepat
Siapkan Gambar Input: Muat dan proses gambar input menggunakan PIL dan konversikan ke format RGB jika diperlukan
Siapkan Format Percakapan: Buat struktur percakapan dengan peran sistem dan perintah pengguna mengikuti format yang disediakan
Proses Input: Gunakan prosesor untuk menyiapkan input untuk model termasuk teks dan gambar
Hasilkan Output: Lewatkan input yang diproses ke model untuk menghasilkan respons untuk tugas multimodal seperti menjawab pertanyaan visual, navigasi UI, atau kontrol robot
Tangani Output Model: Proses dan gunakan output model sesuai dengan kasus penggunaan spesifik Anda (generasi teks, prediksi tindakan, penalaran spasial, dll.)

FAQ Magma

Magma adalah model fondasi pertama Microsoft untuk agen AI multimodal, yang dirancang untuk menangani interaksi kompleks di lingkungan virtual dan nyata. Ini memperluas model visi-bahasa dengan menggabungkan kecerdasan verbal dengan kecerdasan spasial untuk melakukan tugas mulai dari navigasi UI hingga manipulasi robot.

Analitik Situs Web Magma

Lalu Lintas & Peringkat Magma
1.1M
Kunjungan Bulanan
#52723
Peringkat Global
#1080
Peringkat Kategori
Tren Lalu Lintas: Feb 2025-Apr 2025
Wawasan Pengguna Magma
00:01:47
Rata-rata Durasi Kunjungan
2.4
Halaman Per Kunjungan
53.33%
Tingkat Pentalan Pengguna
Wilayah Teratas Magma
  1. US: 19.93%

  2. CN: 12.82%

  3. IN: 10.96%

  4. DE: 3.42%

  5. GB: 3.2%

  6. Others: 49.67%

Alat AI Terbaru Serupa dengan Magma

Athena AI
Athena AI
Athena AI adalah platform bertenaga AI yang serbaguna yang menawarkan bantuan belajar yang dipersonalisasi, solusi bisnis, dan pelatihan hidup melalui fitur seperti analisis dokumen, pembuatan kuis, kartu flash, dan kemampuan obrolan interaktif.
Aguru AI
Aguru AI
Aguru AI adalah solusi perangkat lunak on-premises yang menyediakan pemantauan komprehensif, keamanan, dan alat optimisasi untuk aplikasi berbasis LLM dengan fitur seperti pelacakan perilaku, deteksi anomali, dan optimisasi kinerja.
GOAT AI
GOAT AI
GOAT AI adalah platform yang didukung AI yang menyediakan kemampuan ringkasan satu klik untuk berbagai jenis konten termasuk artikel berita, makalah penelitian, dan video, sambil juga menawarkan orkestrasi agen AI canggih untuk tugas spesifik domain.
GiGOS
GiGOS
GiGOS adalah platform AI yang menyediakan akses ke berbagai model bahasa canggih seperti Gemini, GPT-4, Claude, dan Grok dengan antarmuka intuitif bagi pengguna untuk berinteraksi dan membandingkan berbagai model AI.