
Magma
Magma是Microsoft首個用於多模態AI代理的基礎模型,它結合了語言、空間和時間智能,通過視覺語言理解、UI導航和機器人操作能力,在數位和物理世界中導航複雜的任務。
https://microsoft.github.io/Magma?ref=aipure&utm_source=aipure

產品資訊
更新時間:2025年02月28日
什麼是 Magma
Magma由Microsoft Research與多所大學合作開發,代表了多模態AI技術的重大進步。它超越了傳統的視覺語言模型,不僅保持了強大的語言智能以進行理解和溝通,還整合了空間智能,以便在虛擬和物理環境中規劃和執行動作。Magma於2025年發布,旨在處理從UI導航到機器人操作的各種任務,使其成為連接數位介面和現實世界互動的多功能基礎模型。
Magma 的主要功能
Magma是微軟突破性的多模態AI代理基礎模型,結合了語言、空間和時間智能。它能透過其獨特的標記集合(Set-of-Mark, SoM)和標記追蹤(Trace-of-Mark, ToM)架構,理解並作用於數位和物理環境。該模型經過在包括圖像、影片和機器人數據等多樣化數據集上的預訓練,使其能夠執行從UI導航到機器人操作等任務,而無需特定領域的微調。
多模態理解: 整合語言、空間和時間智能,以處理和理解包括文字、圖像和影片在內的各種輸入類型
標記集合(SoM)架構: 透過預測可操作元素的數字標記,實現UI螢幕截圖、機器人操作和人類影片互動中有效的動作定位
標記追蹤(ToM)技術: 允許理解時間影片動態和未來狀態預測,特別適用於機器人操作和人類動作理解
零樣本學習能力: 無需特定領域的微調即可執行各種任務,展示在不同領域中強大的泛化能力
Magma 的使用案例
UI導航: 協助導航網頁和行動使用者介面,執行諸如點擊按鈕、填寫表單和完成使用者互動等任務
機器人操作: 控制機器手臂執行諸如拾取和放置操作、物體操作和複雜的運動序列等任務
視覺問答: 提供關於圖像和影片的詳細回答,展示強大的空間推理能力
人機互動: 透過理解和執行真實環境中的複雜指令,實現人類與機器人之間的自然互動
優點
無需特定微調即可在多個領域中實現多功能效能
從有限的訓練數據中獲得強大的泛化能力
先進的空間和時間推理能力
缺點
可能需要大量的計算資源
受限於可用訓練數據的品質和數量
仍處於開發和真實世界測試的早期階段
如何使用 Magma
安裝必要的依賴項: 使用pip或conda安裝PyTorch、PIL(Python Imaging Library)和Transformers庫
導入所需的庫: 從transformers導入torch、PIL、BytesIO、requests和所需的模型類
加載模型和處理器: 使用來自\'microsoft/Magma-8B\'的AutoModelForCausalLM和AutoProcessor加載Magma模型和處理器,並設置trust_remote_code=True
將模型移動到GPU: 使用model.to('cuda')將模型傳輸到CUDA設備,以加快處理速度
準備輸入圖像: 使用PIL加載和處理輸入圖像,並在需要時將其轉換為RGB格式
設置對話格式: 按照提供的格式創建具有系統角色和用戶提示的對話結構
處理輸入: 使用處理器準備模型的輸入,包括文本和圖像
生成輸出: 將處理後的輸入傳遞給模型,以生成用於多模態任務(如視覺問題解答、UI導航或機器人控制)的響應
處理模型輸出: 根據您的特定用例(文本生成、動作預測、空間推理等)處理和使用模型的輸出
Magma 常見問題
Magma是微軟首個用於多模態AI代理的基礎模型,旨在處理虛擬和真實環境中複雜的互動。它通過將語言智能與空間智能相結合來擴展視覺語言模型,以執行從UI導航到機器人操作的任務。