Magma

Magma

WebsiteContact for PricingLarge Language Models (LLMs)
Magma, Microsoft'un sözel, uzamsal ve zamansal zekayı bir araya getirerek görme-dil anlama, UI navigasyonu ve robotik manipülasyon yetenekleri aracılığıyla hem dijital hem de fiziksel dünyalarda karmaşık görevlerde gezinmek için çok modlu yapay zeka aracıları için ilk temel modelidir.
https://microsoft.github.io/Magma?ref=aipure&utm_source=aipure
Magma

Ürün Bilgisi

Güncellendi:Feb 28, 2025

Magma Nedir

Microsoft Research tarafından çeşitli üniversitelerle işbirliği içinde geliştirilen Magma, çok modlu yapay zeka teknolojisinde önemli bir ilerlemeyi temsil etmektedir. Sadece anlama ve iletişim için güçlü sözel zekayı korumakla kalmayıp, aynı zamanda hem sanal hem de fiziksel ortamlarda eylemleri planlamak ve yürütmek için uzamsal zekayı da dahil ederek geleneksel görme-dil modellerinin ötesine geçer. 2025'te piyasaya sürülen Magma, UI navigasyonundan robot manipülasyonuna kadar çeşitli görevleri yerine getirmek üzere tasarlanmıştır ve dijital arayüzler ile gerçek dünya etkileşimleri arasındaki boşluğu dolduran çok yönlü bir temel modeldir.

Magma Temel Özellikleri

Magma, Microsoft'un sözel, mekansal ve zamansal zekayı birleştiren, çok modlu AI ajanları için çığır açan temel modelidir. Benzersiz Set-of-Mark (SoM) ve Trace-of-Mark (ToM) mimarileri aracılığıyla hem dijital hem de fiziksel ortamları anlayabilir ve bunlar üzerinde işlem yapabilir. Model, kullanıcı arayüzü navigasyonundan robot manipülasyonuna kadar çeşitli görevleri alan özel ince ayar yapmadan gerçekleştirmesini sağlayan görüntüler, videolar ve robotik verileri dahil olmak üzere çeşitli veri kümeleri üzerinde önceden eğitilmiştir.
Çok Modlu Anlama: Metin, resim ve videolar dahil olmak üzere çeşitli girdi türlerini işlemek ve anlamak için sözel, mekansal ve zamansal zekayı entegre eder
Set-of-Mark (SoM) Mimarisi: Eyleme geçirilebilir öğeler için sayısal işaretler tahmin ederek kullanıcı arayüzü ekran görüntüleri, robot manipülasyonu ve insan video etkileşimleri için görüntülerde etkili eylem temellendirmesini sağlar
Trace-of-Mark (ToM) Teknolojisi: Özellikle robot manipülasyonu ve insan eylemi kavrayışı için yararlı olan zamansal video dinamiklerinin ve gelecekteki durum tahmininin anlaşılmasını sağlar
Sıfır Atışlı Öğrenme Yeteneği: Alana özel ince ayar yapmadan çeşitli görevleri gerçekleştirebilir ve farklı alanlarda güçlü genelleme yetenekleri sergiler

Magma Kullanım Alanları

UI Navigasyonu: Hem web hem de mobil kullanıcı arayüzlerinde gezinmeye yardımcı olur, düğmeleri tıklamak, formları doldurmak ve kullanıcı etkileşimlerini tamamlamak gibi görevleri yerine getirir
Robotik Manipülasyon: Alma ve yerleştirme işlemleri, nesne manipülasyonu ve karmaşık hareket dizileri gibi görevler için robotik kolları kontrol eder
Görsel Soru Cevaplama: Görüntüler ve videolar hakkındaki sorulara ayrıntılı yanıtlar vererek güçlü mekansal akıl yürütme yetenekleri sergiler
İnsan-Robot Etkileşimi: Gerçek dünya ortamlarında karmaşık komutları anlayıp yürüterek insanlar ve robotlar arasında doğal etkileşimi sağlar

Artıları

Belirli ince ayar yapmadan birden çok alanda çok yönlü performans
Sınırlı eğitim verilerinden güçlü genelleme yetenekleri
Gelişmiş mekansal ve zamansal akıl yürütme yetenekleri

Eksileri

Önemli miktarda hesaplama kaynağı gerektirebilir
Mevcut eğitim verilerinin kalitesi ve miktarıyla sınırlıdır
Hala geliştirme ve gerçek dünya testlerinin ilk aşamalarında

Magma Nasıl Kullanılır

Gerekli Bağımlılıkları Yükleyin: pip veya conda kullanarak PyTorch, PIL (Python Görüntüleme Kütüphanesi) ve Transformers kütüphanesini yükleyin
Gerekli Kütüphaneleri İçe Aktarın: torch, PIL, BytesIO, requests ve transformers'dan gerekli model sınıflarını içe aktarın
Modeli ve İşlemciyi Yükleyin: 'microsoft/Magma-8B'den AutoModelForCausalLM ve AutoProcessor kullanarak Magma modelini ve işlemcisini trust_remote_code=True ile yükleyin
Modeli GPU'ya Taşıyın: Daha hızlı işleme için modeli model.to('cuda') kullanarak CUDA cihazına aktarın
Giriş Görüntüsünü Hazırlayın: PIL kullanarak giriş görüntüsünü yükleyin ve işleyin ve gerekirse RGB formatına dönüştürün
Konuşma Biçimini Ayarlayın: Sağlanan formata göre sistem rolü ve kullanıcı istemleriyle konuşma yapısını oluşturun
Girdileri İşleyin: Hem metin hem de görüntü dahil olmak üzere model için girdileri hazırlamak üzere işlemciyi kullanın
Çıktı Oluşturun: Görsel soru cevaplama, UI navigasyonu veya robot kontrolü gibi çok modlu görevler için yanıtlar oluşturmak üzere işlenmiş girdileri modele geçirin
Model Çıktısını İşleyin: Modelin çıktısını özel kullanım durumunuza göre işleyin ve kullanın (metin oluşturma, eylem tahmini, uzamsal akıl yürütme vb.)

Magma SSS

Magma, Microsoft'un çok modlu yapay zeka ajanları için ilk temel modelidir ve hem sanal hem de gerçek ortamlarda karmaşık etkileşimleri yönetmek üzere tasarlanmıştır. Sözlü zekayı uzamsal zeka ile birleştirerek kullanıcı arayüzü navigasyonundan robot manipülasyonuna kadar çeşitli görevleri gerçekleştirmek için görme-dil modellerini genişletir.

Magma Benzer En Yeni Yapay Zeka Araçları

Athena AI
Athena AI
Athena AI, belge analizi, quiz oluşturma, flash kartlar ve etkileşimli sohbet yetenekleri gibi özellikler aracılığıyla kişiselleştirilmiş çalışma yardımı, iş çözümleri ve yaşam koçluğu sunan çok yönlü bir AI destekli platformdur.
Aguru AI
Aguru AI
Aguru AI, davranış izleme, anomali tespiti ve performans optimizasyonu gibi özelliklerle LLM tabanlı uygulamalar için kapsamlı izleme, güvenlik ve optimizasyon araçları sağlayan yerel bir yazılım çözümüdür.
GOAT AI
GOAT AI
GOAT AI, haber makaleleri, araştırma makaleleri ve videolar gibi çeşitli içerik türleri için tek tıklama ile özetleme yetenekleri sunan AI destekli bir platformdur ve ayrıca alanına özgü görevler için gelişmiş AI ajan orkestrasyonu sağlar.
GiGOS
GiGOS
GiGOS, kullanıcıların etkileşimde bulunabileceği ve farklı AI modellerini karşılaştırabileceği sezgisel bir arayüzle Gemini, GPT-4, Claude ve Grok gibi birden fazla gelişmiş dil modeline erişim sağlayan bir AI platformudur.