
Magma
Magma, Microsoft'un sözel, uzamsal ve zamansal zekayı bir araya getirerek görme-dil anlama, UI navigasyonu ve robotik manipülasyon yetenekleri aracılığıyla hem dijital hem de fiziksel dünyalarda karmaşık görevlerde gezinmek için çok modlu yapay zeka aracıları için ilk temel modelidir.
https://microsoft.github.io/Magma?ref=aipure&utm_source=aipure

Ürün Bilgisi
Güncellendi:Feb 28, 2025
Magma Nedir
Microsoft Research tarafından çeşitli üniversitelerle işbirliği içinde geliştirilen Magma, çok modlu yapay zeka teknolojisinde önemli bir ilerlemeyi temsil etmektedir. Sadece anlama ve iletişim için güçlü sözel zekayı korumakla kalmayıp, aynı zamanda hem sanal hem de fiziksel ortamlarda eylemleri planlamak ve yürütmek için uzamsal zekayı da dahil ederek geleneksel görme-dil modellerinin ötesine geçer. 2025'te piyasaya sürülen Magma, UI navigasyonundan robot manipülasyonuna kadar çeşitli görevleri yerine getirmek üzere tasarlanmıştır ve dijital arayüzler ile gerçek dünya etkileşimleri arasındaki boşluğu dolduran çok yönlü bir temel modeldir.
Magma Temel Özellikleri
Magma, Microsoft'un sözel, mekansal ve zamansal zekayı birleştiren, çok modlu AI ajanları için çığır açan temel modelidir. Benzersiz Set-of-Mark (SoM) ve Trace-of-Mark (ToM) mimarileri aracılığıyla hem dijital hem de fiziksel ortamları anlayabilir ve bunlar üzerinde işlem yapabilir. Model, kullanıcı arayüzü navigasyonundan robot manipülasyonuna kadar çeşitli görevleri alan özel ince ayar yapmadan gerçekleştirmesini sağlayan görüntüler, videolar ve robotik verileri dahil olmak üzere çeşitli veri kümeleri üzerinde önceden eğitilmiştir.
Çok Modlu Anlama: Metin, resim ve videolar dahil olmak üzere çeşitli girdi türlerini işlemek ve anlamak için sözel, mekansal ve zamansal zekayı entegre eder
Set-of-Mark (SoM) Mimarisi: Eyleme geçirilebilir öğeler için sayısal işaretler tahmin ederek kullanıcı arayüzü ekran görüntüleri, robot manipülasyonu ve insan video etkileşimleri için görüntülerde etkili eylem temellendirmesini sağlar
Trace-of-Mark (ToM) Teknolojisi: Özellikle robot manipülasyonu ve insan eylemi kavrayışı için yararlı olan zamansal video dinamiklerinin ve gelecekteki durum tahmininin anlaşılmasını sağlar
Sıfır Atışlı Öğrenme Yeteneği: Alana özel ince ayar yapmadan çeşitli görevleri gerçekleştirebilir ve farklı alanlarda güçlü genelleme yetenekleri sergiler
Magma Kullanım Alanları
UI Navigasyonu: Hem web hem de mobil kullanıcı arayüzlerinde gezinmeye yardımcı olur, düğmeleri tıklamak, formları doldurmak ve kullanıcı etkileşimlerini tamamlamak gibi görevleri yerine getirir
Robotik Manipülasyon: Alma ve yerleştirme işlemleri, nesne manipülasyonu ve karmaşık hareket dizileri gibi görevler için robotik kolları kontrol eder
Görsel Soru Cevaplama: Görüntüler ve videolar hakkındaki sorulara ayrıntılı yanıtlar vererek güçlü mekansal akıl yürütme yetenekleri sergiler
İnsan-Robot Etkileşimi: Gerçek dünya ortamlarında karmaşık komutları anlayıp yürüterek insanlar ve robotlar arasında doğal etkileşimi sağlar
Artıları
Belirli ince ayar yapmadan birden çok alanda çok yönlü performans
Sınırlı eğitim verilerinden güçlü genelleme yetenekleri
Gelişmiş mekansal ve zamansal akıl yürütme yetenekleri
Eksileri
Önemli miktarda hesaplama kaynağı gerektirebilir
Mevcut eğitim verilerinin kalitesi ve miktarıyla sınırlıdır
Hala geliştirme ve gerçek dünya testlerinin ilk aşamalarında
Magma Nasıl Kullanılır
Gerekli Bağımlılıkları Yükleyin: pip veya conda kullanarak PyTorch, PIL (Python Görüntüleme Kütüphanesi) ve Transformers kütüphanesini yükleyin
Gerekli Kütüphaneleri İçe Aktarın: torch, PIL, BytesIO, requests ve transformers'dan gerekli model sınıflarını içe aktarın
Modeli ve İşlemciyi Yükleyin: 'microsoft/Magma-8B'den AutoModelForCausalLM ve AutoProcessor kullanarak Magma modelini ve işlemcisini trust_remote_code=True ile yükleyin
Modeli GPU'ya Taşıyın: Daha hızlı işleme için modeli model.to('cuda') kullanarak CUDA cihazına aktarın
Giriş Görüntüsünü Hazırlayın: PIL kullanarak giriş görüntüsünü yükleyin ve işleyin ve gerekirse RGB formatına dönüştürün
Konuşma Biçimini Ayarlayın: Sağlanan formata göre sistem rolü ve kullanıcı istemleriyle konuşma yapısını oluşturun
Girdileri İşleyin: Hem metin hem de görüntü dahil olmak üzere model için girdileri hazırlamak üzere işlemciyi kullanın
Çıktı Oluşturun: Görsel soru cevaplama, UI navigasyonu veya robot kontrolü gibi çok modlu görevler için yanıtlar oluşturmak üzere işlenmiş girdileri modele geçirin
Model Çıktısını İşleyin: Modelin çıktısını özel kullanım durumunuza göre işleyin ve kullanın (metin oluşturma, eylem tahmini, uzamsal akıl yürütme vb.)
Magma SSS
Magma, Microsoft'un çok modlu yapay zeka ajanları için ilk temel modelidir ve hem sanal hem de gerçek ortamlarda karmaşık etkileşimleri yönetmek üzere tasarlanmıştır. Sözlü zekayı uzamsal zeka ile birleştirerek kullanıcı arayüzü navigasyonundan robot manipülasyonuna kadar çeşitli görevleri gerçekleştirmek için görme-dil modellerini genişletir.
Magma Videosu
Popüler Makaleler

Adobe Firefly Nasıl Kullanılır: Yeni Başlayanlar İçin Eksiksiz Eğitim
Feb 24, 2025

DeepSeek'i Çevrimdışı Olarak Yerel Bilgisayarda Nasıl Çalıştırılır
Feb 10, 2025

Şubat 2025'te Ücretsiz Midjourney Promosyon Kodları ve Nasıl Kullanılır
Feb 6, 2025

Leonardo AI Şubat 2025 Çalışan Ücretsiz Promosyon Kodları ve Nasıl Kullanılır
Feb 6, 2025