
Magma
Magma是微软首个用于多模态人工智能代理的基础模型,它结合了语言、空间和时间智能,通过视觉语言理解、UI导航和机器人操作能力,在数字和物理世界中导航复杂的任务。
https://microsoft.github.io/Magma?ref=aipure&utm_source=aipure

产品信息
更新于:2025年02月28日
什么是 Magma
Magma由微软研究院与多所大学合作开发,代表了多模态人工智能技术的重大进步。它超越了传统的视觉语言模型,不仅保持了强大的语言智能,用于理解和交流,还融入了空间智能,用于在虚拟和物理环境中规划和执行动作。Magma于2025年发布,旨在处理从UI导航到机器人操作的各种任务,使其成为一个通用的基础模型,弥合了数字界面和现实世界交互之间的差距。
Magma 的主要功能
Magma是微软突破性的多模态AI代理基础模型,它结合了语言、空间和时间智能。通过其独特的标记集(SoM)和标记轨迹(ToM)架构,它可以理解并作用于数字和物理环境。该模型在包括图像、视频和机器人数据在内的多样化数据集上进行了预训练,使其能够执行从UI导航到机器人操作等任务,而无需特定领域的微调。
多模态理解: 整合语言、空间和时间智能,以处理和理解各种类型的输入,包括文本、图像和视频
标记集(SoM)架构: 通过预测可操作元素的数字标记,实现UI截图、机器人操作和人类视频交互中有效的动作定位
标记轨迹(ToM)技术: 允许理解时间视频动态和未来状态预测,特别适用于机器人操作和人类动作理解
零样本学习能力: 无需特定领域的微调即可执行各种任务,展示了跨不同领域的强大泛化能力
Magma 的使用场景
UI导航: 协助导航网页和移动用户界面,执行诸如点击按钮、填写表单和完成用户交互等任务
机器人操作: 控制机械臂执行诸如拾取和放置操作、物体操作和复杂运动序列等任务
视觉问答: 提供关于图像和视频的详细回答,展示强大的空间推理能力
人机交互: 通过理解和执行现实世界中的复杂命令,实现人类与机器人之间的自然交互
优点
无需特定微调即可在多个领域实现通用性能
从有限的训练数据中获得强大的泛化能力
先进的空间和时间推理能力
缺点
可能需要大量的计算资源
受限于可用训练数据的质量和数量
仍处于开发的早期阶段和现实世界的测试中
如何使用 Magma
安装所需依赖: 使用pip或conda安装PyTorch、PIL(Python Imaging Library)和Transformers库
导入所需库: 从transformers导入torch、PIL、BytesIO、requests和所需的模型类
加载模型和处理器: 使用AutoModelForCausalLM和AutoProcessor从\"microsoft/Magma-8B\"加载Magma模型和处理器,并设置trust_remote_code=True
将模型移至GPU: 使用model.to('cuda')将模型传输到CUDA设备,以加快处理速度
准备输入图像: 使用PIL加载和处理输入图像,如果需要,将其转换为RGB格式
设置对话格式: 按照提供的格式创建具有系统角色和用户提示的对话结构
处理输入: 使用处理器准备模型的输入,包括文本和图像
生成输出: 将处理后的输入传递给模型,以生成用于多模态任务(如视觉问题解答、UI导航或机器人控制)的响应
处理模型输出: 根据您的特定用例(文本生成、动作预测、空间推理等)处理和使用模型的输出
Magma 常见问题
Magma是微软首个用于多模态AI代理的基础模型,旨在处理虚拟和真实环境中复杂的交互。它通过结合语言智能和空间智能来扩展视觉语言模型,以执行从UI导航到机器人操作等任务。