Magma的主要功能是什麼？

Magma具有三個主要功能：1) 語言智能（視覺語言理解），2) 空間智能（在視覺空間世界中規劃和行動的能力），以及3) 代理任務完成（UI導航和機器人操作）。它可以處理數位和物理世界的任務。

Magma的預訓練如何工作？

Magma在大型異構數據集上進行預訓練，包括圖像、影片和機器人數據。它對圖像和影片使用共享視覺編碼器，對文本進行標記化，並對可操作對象使用Set-of-Mark (SoM)，對對象移動使用Trace-of-Mark (ToM)。然後，這些標記被輸入到LLM中以生成輸出。

Magma可以執行哪些類型的任務？

Magma可以執行各種任務，包括UI導航（Web和移動）、機器人操作（如拾取和放置操作）、空間推理、多模態理解和影片問答。它在這些領域表現出最先進的性能，尤其是在UI導航和機器人操作任務中。

Magma與其他模型相比表現如何？

Magma在特定任務中始終優於以前的模型。它在UI導航和機器人操作任務上創造了新的最先進的結果，優於專用模型。在影片QA基準測試中，儘管使用較少的訓練數據，但它的性能與Video-Llama2和ShareGPT4Video等模型相比具有競爭力。

Magma

WebsiteContact for PricingLarge Language Models (LLMs)

Magma是Microsoft首個用於多模態AI代理的基礎模型，它結合了語言、空間和時間智能，通過視覺語言理解、UI導航和機器人操作能力，在數位和物理世界中導航複雜的任務。

訪問網站

宣傳此工具

https://microsoft.github.io/Magma?ref=aipure&utm_source=aipure

概覽
分析
影片
替代方案

產品資訊

更新時間：2025年07月16日

Magma 每月流量趨勢

Magma 的流量下降了 6.0%，達到 896K 次訪問。這種下降可能是由於 Microsoft Build 2025 的重大更新和新聞所致，特別是 GitHub Copilot 新編碼代理的發布以及其在 Visual Studio Code 中的開源實現，這可能分散了原本屬於 Magma 的注意力和流量。

查看歷史流量

什麼是 Magma

Magma由Microsoft Research與多所大學合作開發，代表了多模態AI技術的重大進步。它超越了傳統的視覺語言模型，不僅保持了強大的語言智能以進行理解和溝通，還整合了空間智能，以便在虛擬和物理環境中規劃和執行動作。Magma於2025年發布，旨在處理從UI導航到機器人操作的各種任務，使其成為連接數位介面和現實世界互動的多功能基礎模型。

Magma 的主要功能

Magma是微軟突破性的多模態AI代理基礎模型，結合了語言、空間和時間智能。它能透過其獨特的標記集合（Set-of-Mark, SoM）和標記追蹤（Trace-of-Mark, ToM）架構，理解並作用於數位和物理環境。該模型經過在包括圖像、影片和機器人數據等多樣化數據集上的預訓練，使其能夠執行從UI導航到機器人操作等任務，而無需特定領域的微調。

多模態理解: 整合語言、空間和時間智能，以處理和理解包括文字、圖像和影片在內的各種輸入類型

標記集合（SoM）架構: 透過預測可操作元素的數字標記，實現UI螢幕截圖、機器人操作和人類影片互動中有效的動作定位

標記追蹤（ToM）技術: 允許理解時間影片動態和未來狀態預測，特別適用於機器人操作和人類動作理解

零樣本學習能力: 無需特定領域的微調即可執行各種任務，展示在不同領域中強大的泛化能力