MAI-Image-2.5 何时推出，有哪些版本可用？

微软于2026年6月2日发布了 MAI-Image-2.5，同时发布的还有 MAI-Image-2.5-Flash。MAI-Image-2.5 旨在实现最高保真度，而 MAI-Image-2.5-Flash 则定位为针对可扩展工作负载的更快、成本更低的选择。

MAI-Image-2.5 在 Arena 排行榜上的表现如何？

微软报告称，MAI-Image-2.5 在 Arena 的文本到图像排行榜上排名第三，在 Arena 的图像编辑（单图像编辑）排行榜上排名第二，领先于 Nano Banana 2.1，并且其 Arena 分数据报道已超越 GPT-Image-1.5 和 Nano Banana Pro 2K。

MAI-Image-2.5 的主要功能是什么？

微软强调了其在文本到图像质量（细节、连贯性、文本渲染、产品图像、提示依从性）、复杂视觉推理（场景结构、光照、比例、空间关系）、精细局部编辑（替换对象、更新文本、去除运动模糊而不改变其他部分）以及跨编辑的人脸/身份一致性方面的改进。

开发者可以在哪里访问 MAI-Image-2.5？

微软表示，MAI-Image-2.5 和 MAI-Image-2.5-Flash 可供开发者在 Microsoft Foundry (Azure AI Foundry) 中使用，并可在 MAI Playground 中试用。

哪些微软产品正在使用 MAI-Image-2.5？

微软表示，MAI-Image-2.5 已在 PowerPoint 中用于高质量图像生成，并正在推广到 OneDrive 中用于精确的照片编辑（例如，去除干扰、清理背景、增强图像同时保留场景）。

MAI-Image-2.5 在 Foundry 中的成本是多少？

微软列出的 MAI-Image-2.5 定价为每 100 万文本输入令牌 5 美元，每 100 万图像输入令牌 8 美元，每 100 万图像输出令牌 47 美元。MAI-Image-2.5-Flash 的定价为每 100 万文本输入令牌 1.75 美元，每 100 万图像输入令牌 1.75 美元，每 100 万图像输出令牌 19.50 美元。

微软对 MAI-Image-2.5 提出了哪些安全限制？

微软表示，MAI-Image-2.5 包含分层安全防护措施（提示和输出过滤），以帮助检测和阻止有害或违反政策的内容。微软还提醒，与所有图像模型一样，它可能反映偏见，并可能生成看似合理但不准确或具有误导性的细节，因此在敏感场景（例如身份、法律、医疗、金融或新闻相关工作流程）中使用之前应审查输出。

MAI-Image-2.5

WebsitePaidText to Image

MAI-Image-2.5 是 Microsoft 最强大的图像模型，提供高保真文本到图像生成和精确、可控的图像到图像编辑，具有强大的提示依从性、改进的文本渲染和身份一致的面部保留。

访问网站

推广此工具

https://microsoft.ai/news/introducing-mai-image-2-5?ref=producthunt&utm_source=aipure

概述
视频
替代方案

产品信息

更新于：2026年06月08日

什么是 MAI-Image-2.5

MAI-Image-2.5 是一个 Microsoft AI (MAI) 图像生成和编辑模型，专为生产就绪的创意工作流程而构建。它专注于高质量、连贯的文本到图像输出和精细的图像编辑，在应用有针对性的更改的同时保留原始场景。在第三方 Arena 评估中，MAI-Image-2.5 在文本到图像方面排名第三，在图像编辑方面排名第二（领先于 Nano Banana 2.1），反映了在创建和编辑任务中强大的人类偏好性能。Microsoft 还提供 MAI-Image-2.5-Flash，这是一种更快、成本更低的变体，专为可扩展、对延迟敏感的工作负载而设计。该模型系列通过 Microsoft Foundry 向开发人员提供，并可在 MAI Playground 中试用，它已为 Microsoft 产品（如 PowerPoint 中的图像生成和 OneDrive 中的精确照片编辑）中的功能提供支持。

MAI-Image-2.5 的主要功能

MAI-Image-2.5 是微软最高保真度的图像生成和编辑模型，专为生产就绪的创意工作流程而设计，具有强大的提示遵循能力、改进的文本渲染以及可控的局部编辑功能，同时保留图像的其余部分。它增加了具有“控制与保留”功能的图像到图像编辑，支持复杂的视觉推理（光照、比例、空间关系），并在编辑过程中保持面部/身份的一致性。它在 Arena 上排名靠前（文本到图像排名第 3；图像编辑排名第 2），可在 Microsoft Foundry 和 MAI Playground 中使用，并与 PowerPoint（生成）和 OneDrive（精确照片编辑）等产品集成。一个更快、成本更低的变体（MAI-Image-2.5-Flash）旨在满足可扩展的工作负载。

高保真文本到图像生成: 通过更强的提示遵循能力和改进的商业质量输出，包括更好的排版和布局稳定性，从提示中生成更详细、更连贯的图像。

具有局部控制的图像到图像编辑: 支持精确编辑——替换对象、更新文本、去除运动模糊、清理背景——同时保持图像的其余部分不变（“控制与保留”）。

用于真实编辑的复杂视觉推理: 理解场景结构、光照、透视、比例和空间关系，以便插入或修改的元素与上下文匹配（例如，正确的阴影和视角）。

面部和身份一致性: 在编辑过程中保持可识别的面部身份，即使改变姿势、表情或视角——这对于涉及人物的迭代创意工作非常有用。

两种部署选项：保真度与速度: MAI-Image-2.5 旨在实现最高质量；MAI-Image-2.5-Flash 为高吞吐量生产管道提供更快、成本更低的生成和编辑。

企业访问和微软产品集成: 可通过 Microsoft Foundry API 和 MAI Playground 获取；集成到 PowerPoint 中以提供可用于演示的视觉效果，并推广到 OneDrive 以进行精确的照片编辑。

MAI-Image-2.5 的使用场景

营销和广告创意: 通过改进的排版和提示保真度，生成营销活动概念、产品特写镜头和品牌前瞻性视觉效果；通过受控编辑快速迭代。

包装、标签和海报模型: 创建可读文本至关重要的设计草稿——海报、标签、包装概念和店面/货架视觉效果——然后细化特定区域，而无需重做整个图像。

电子商务和零售内容管道: 生成可扩展的产品图像变体（背景、道具、光照），并对目录进行清理/编辑，同时保留核心产品外观。

演示文稿和企业通信: 在 PowerPoint 中，根据提示生成可用于演示的视觉效果；生成一致的幻灯片图像并迭代特定元素（图标、标题、图表）。

消费者照片编辑和内容恢复: 在 OneDrive 风格的工作流程中，消除干扰、清理背景并增强照片，同时保留原始场景构图。

教育和教学图形: 生成需要结构化布局和嵌入文本的图表、海报和解释性视觉效果，然后应用有针对性的编辑来更正标签或元素。

优点

在独立的 Arena 排行榜上具有强大的生成和编辑性能（文本到图像和图像编辑均处于顶级）。

具有保留功能的细粒度局部编辑减少了返工，并支持迭代的生产式工作流程。

与以前版本相比，改进了文本渲染和商业图像质量，使输出更具设计就绪性。

通过 Flash 变体实现灵活的成本/延迟权衡，适用于可扩展的生产工作负载。

缺点

与所有图像模型一样，可能会反映训练数据偏差，并可能生成看似合理但不准确/误导性的细节——在敏感环境（身份、法律、医疗、金融、新闻）中需要人工审查。

安全过滤器和策略护栏可能会限制某些提示/编辑，这可能会限制某些创意或边缘案例工作流程。

高保真度使用可能比 Flash 更昂贵，需要对大规模管道进行成本控制。

如何使用 MAI-Image-2.5

1) 选择您希望如何访问 MAI-Image-2.5: 选择符合您工作流程的入口点：(a) Microsoft Foundry（API/生产），(b) MAI Playground（交互式测试），或 (c) 集成它的 Microsoft 产品（PowerPoint 用于生成；OneDrive 用于精确编辑推出）。

2) 决定使用哪个模型变体（质量与速度/成本）: 使用 MAI-Image-2.5 可获得最大保真度和精细控制。使用 MAI-Image-2.5-Flash 可实现更快、可扩展、成本更低的生成/编辑工作负载。

3) 在 MAI Playground 中快速试用（无代码评估）: 打开 MAI Playground (https://playground.microsoft.ai/chat)，从模型选择器中选择 MAI-Image-2.5（或 MAI-Image-2.5-Flash），然后运行文本到图像提示以评估样式、提示依从性，尤其是图像内文本渲染。

4) 从文本提示生成图像（文本到图像）: 在 Playground 中（或稍后通过 API），输入详细的提示，描述主题、环境、光照、相机/样式以及任何所需的图像上文本。MAI-Image-2.5 在产品图像、风格化插图和更清晰的文本渲染方面表现尤为出色。

5) 执行图像到图像编辑（上传图像，然后描述编辑）: 提供现有图像并指定您想要的更改（例如，替换对象、更新标签/海报上的文本、去除运动模糊、清理背景）。MAI-Image-2.5 旨在在应用局部编辑的同时保持图像的其余部分稳定。

6) 使用精细的局部编辑指令: 编辑时，明确指出必须更改什么以及必须保持不变什么（例如，“只替换瓶子标签上的徽标；保持光照、反射和背景相同”）。该模型被描述为支持精确、可控的编辑，而不会改变场景的其余部分。

7) 利用场景结构感知进行逼真编辑: 对于添加/删除，包括关于透视、阴影和比例的约束（例如，“在桌子上添加一个杯子，具有匹配的透视和与窗户光线一致的柔和阴影”）。MAI-Image-2.5 被描述为理解光照和空间关系以进行符合上下文的编辑。

8) 在编辑过程中保持面部/身份一致性（如果适用）: 如果编辑肖像，请指定在改变姿势/表情/视角时必须保留身份（例如，“保持同一个人；将表情改为微笑；保持肤色和面部特征一致”）。MAI-Image-2.5 被描述为在编辑过程中保留可识别的相似性。

9) 通过 Microsoft Foundry 投入生产（开发人员/API 路线）: 在 Microsoft Foundry 中，找到 MAI-Image-2.5 或 MAI-Image-2.5-Flash 模型卡，并将其部署/用作应用程序的模型端点。Foundry 被描述为通过 API 调用模型的主要开发人员访问途径。

10) 使用正确的变体优化成本和吞吐量: 对于批量生成或大容量管道，首选 MAI-Image-2.5-Flash；对于高级创意资产和最大编辑保真度，首选 MAI-Image-2.5。官方来源强调 Flash 更快/成本更低，而 MAI-Image-2.5 具有最大保真度。

11) 在 Microsoft 产品中使用（如果可用）: PowerPoint：在 PowerPoint 中使用 Copilot 从提示生成演示文稿就绪的视觉效果/幻灯片。OneDrive：使用 AI 照片编辑功能（正在推出）进行精确编辑，例如去除干扰和清理背景，同时保留原始场景。

12) 对于敏感用例，添加人工审查步骤: Microsoft 指出，该模型可能会产生看似合理但不准确/误导性的视觉细节，并可能反映训练数据偏差。在敏感上下文（身份、法律、医疗、金融或新闻相关工作流程）中使用之前审查输出。