MAI-Image-2.5 何時推出？有哪些版本？

Microsoft 於 2026 年 6 月 2 日發布了 MAI-Image-2.5，同時發布了 MAI-Image-2.5-Flash。MAI-Image-2.5 旨在實現最高保真度，而 MAI-Image-2.5-Flash 則定位為適用於可擴展工作負載的更快、成本更低的選項。

MAI-Image-2.5 在 Arena 排行榜上的表現如何？

Microsoft 報告稱，MAI-Image-2.5 在 Arena 的文字轉圖像排行榜上排名第 3，在 Arena 的圖像編輯（單圖像編輯）排行榜上排名第 2，領先於 Nano Banana 2.1，並且據報導其 Arena 分數超越了 GPT-Image-1.5 和 Nano Banana Pro 2K。

MAI-Image-2.5 的主要功能是什麼？

Microsoft 強調了文字轉圖像品質（細節、連貫性、文字渲染、產品圖像、提示遵循）、複雜視覺推理（場景結構、照明、比例、空間關係）、細粒度局部編輯（替換物體、更新文字、移除運動模糊而不改變其他部分）以及編輯過程中臉部/身份一致性方面的改進。

開發人員可以在哪裡存取 MAI-Image-2.5？

Microsoft 表示，開發人員可以在 Microsoft Foundry (Azure AI Foundry) 中使用 MAI-Image-2.5 和 MAI-Image-2.5-Flash，並可以在 MAI Playground 中試用。

哪些 Microsoft 產品正在使用 MAI-Image-2.5？

Microsoft 表示，MAI-Image-2.5 已在 PowerPoint 中用於高品質圖像生成，並正在推廣到 OneDrive 以進行精確的照片編輯（例如，移除干擾、清理背景、在保留場景的同時增強圖像）。

MAI-Image-2.5 在 Foundry 中的費用是多少？

Microsoft 列出的 MAI-Image-2.5 定價為每 100 萬文字輸入代幣 5 美元，每 100 萬圖像輸入代幣 8 美元，每 100 萬圖像輸出代幣 47 美元。MAI-Image-2.5-Flash 的定價為每 100 萬文字輸入代幣 1.75 美元，每 100 萬圖像輸入代幣 1.75 美元，每 100 萬圖像輸出代幣 19.50 美元。

Microsoft 對 MAI-Image-2.5 提出了哪些安全限制？

Microsoft 表示，MAI-Image-2.5 包含分層安全防護措施（提示和輸出過濾），以幫助檢測和阻止有害或違反政策的內容。Microsoft 還提醒，與所有圖像模型一樣，它可能會反映偏見，並可能生成看似合理但不準確或誤導性的細節，因此在敏感環境（例如，身份、法律、醫療、金融或新聞相關工作流程）中使用之前應審查輸出。

MAI-Image-2.5

WebsitePaidText to Image

MAI-Image-2.5 是 Microsoft 最強大的圖像模型，提供高保真度的文字轉圖像生成和精確、可控的圖像轉圖像編輯，具有強大的提示遵循度、改進的文字渲染和身份一致的臉部保留。

訪問網站

宣傳此工具

https://microsoft.ai/news/introducing-mai-image-2-5?ref=producthunt&utm_source=aipure

概覽
影片
替代方案

產品資訊

更新時間：2026年06月08日

什麼是 MAI-Image-2.5

MAI-Image-2.5 是 Microsoft AI (MAI) 圖像生成和編輯模型，專為可投入生產的創意工作流程而建置。它專注於高品質、連貫的文字轉圖像輸出和精細的圖像編輯，在應用目標變更的同時保留原始場景。在第三方 Arena 評估中，MAI-Image-2.5 在文字轉圖像方面排名第 3，在圖像編輯方面排名第 2 (領先於 Nano Banana 2.1)，反映了在創作和編輯任務中強大的人類偏好表現。Microsoft 還提供 MAI-Image-2.5-Flash，這是一個更快、成本更低的變體，專為可擴展、對延遲敏感的工作負載而設計。該模型系列可透過 Microsoft Foundry 提供給開發人員，並可在 MAI Playground 中試用，它已經為 Microsoft 產品（如 PowerPoint 中的圖像生成和 OneDrive 中的精確照片編輯）提供支援。

MAI-Image-2.5 的主要功能

MAI-Image-2.5 是微軟最高擬真度的影像生成與編輯模型，專為生產就緒的創意工作流程而設計，具有強大的提示遵循能力、改進的文字渲染，以及可控、局部化的編輯，同時保留影像的其他部分。它新增了「保留控制」的影像到影像編輯功能，支援複雜的視覺推理（光線、比例、空間關係），並在編輯過程中保持臉部/身份的一致性。它在 Arena 上排名很高（文字到影像排名第三；影像編輯排名第二），並可在 Microsoft Foundry 和 MAI Playground 中使用，產品整合包括 PowerPoint（生成）和 OneDrive（精確照片編輯）。一個更快、成本更低的變體（MAI-Image-2.5-Flash）則針對可擴展的工作負載。

高擬真度文字到影像生成: 從提示生成更詳細、更連貫的影像，具有更強的提示遵循能力和改進的商業品質輸出，包括更好的排版和佈局穩定性。

具有局部控制的影像到影像編輯: 支援精確編輯——替換物件、更新文字、移除運動模糊、清理背景——同時保持影像的其他部分不變（「保留控制」）。

用於真實編輯的複雜視覺推理: 理解場景結構、光線、透視、比例和空間關係，使插入或修改的元素與上下文匹配（例如，正確的陰影和視角）。

臉部和身份一致性: 在編輯過程中保留可識別的臉部身份，即使改變姿勢、表情或視角——這對於涉及人物的迭代創意工作很有用。

兩種部署選項：擬真度與速度: MAI-Image-2.5 旨在實現最高品質；MAI-Image-2.5-Flash 為高吞吐量生產管道提供更快、成本更低的生成和編輯。

企業存取和微軟產品整合: 可透過 Microsoft Foundry API 和 MAI Playground 取得；整合到 PowerPoint 中以提供可供簡報使用的視覺效果，並將推廣到 OneDrive 以進行精確的照片編輯。

MAI-Image-2.5 的使用案例

行銷與廣告創意: 生成活動概念、產品主打圖片和品牌導向的視覺效果，並改進排版和提示忠實度；透過受控編輯快速迭代。

包裝、標籤和海報模型: 創建可讀文字很重要的設計草稿——海報、標籤、包裝概念和店面/貨架視覺效果——然後精修特定區域，而無需重做整個影像。

電子商務和零售內容管道: 生成可擴展的產品影像變體（背景、道具、光線），並為目錄進行清理/編輯，同時保留核心產品外觀。

簡報和企業通訊: 在 PowerPoint 中，從提示生成可供簡報使用的視覺效果；生成一致的投影片影像並迭代特定元素（圖示、標題、圖表）。

消費者照片編輯和內容修復: 在 OneDrive 風格的工作流程中，移除干擾、清理背景並增強照片，同時保留原始場景構圖。

教育和教學圖形: 生成需要結構化佈局和嵌入文字的圖表、海報和解釋性視覺效果，然後應用目標編輯來更正標籤或元素。

優點

在獨立的 Arena 排行榜上具有強大的生成和編輯性能（文字到影像和影像編輯均處於頂級）。

具有保留功能的細粒度局部編輯減少了返工，並實現了迭代、生產風格的工作流程。

與先前版本相比，改進了文字渲染和商業影像品質，使輸出更具設計就緒性。

透過 Flash 變體實現靈活的成本/延遲權衡，適用於可擴展的生產工作負載。

缺點

像所有影像模型一樣，可能會反映訓練數據的偏差，並可能生成看似合理但不準確/誤導的細節——在敏感情境（身份、法律、醫療、金融、新聞）中需要人工審查。

安全過濾器和政策護欄可能會限制某些提示/編輯，這可能會限制某些創意或邊緣案例工作流程。

高擬真度使用可能比 Flash 更昂貴，對於大規模管道需要成本控制。

如何使用 MAI-Image-2.5

1) 選擇您要如何存取 MAI-Image-2.5: 選擇符合您工作流程的入口點：(a) Microsoft Foundry (API/生產)，(b) MAI Playground (互動式測試)，或 (c) 已整合它的 Microsoft 產品 (PowerPoint 用於生成；OneDrive 用於精確編輯的推出)。

2) 決定要使用哪個模型變體 (品質 vs 速度/成本): 使用 MAI-Image-2.5 可獲得最大保真度和精細控制。使用 MAI-Image-2.5-Flash 可用於更快、可擴展、成本更低的生成/編輯工作負載。

3) 在 MAI Playground 中快速試用 (無程式碼評估): 在 https://playground.microsoft.ai/chat 開啟 MAI Playground，從模型選擇器中選擇 MAI-Image-2.5 (或 MAI-Image-2.5-Flash)，然後執行文字轉圖像提示以評估風格、提示遵循度，尤其是圖像內文字渲染。

4) 從文字提示生成圖像 (文字轉圖像): 在 Playground (或之後透過 API)，輸入詳細的提示，描述主題、環境、照明、相機/風格以及任何所需的圖像上文字。MAI-Image-2.5 在產品圖像、風格化插圖和更清晰的文字渲染方面尤其強大。

5) 執行圖像轉圖像編輯 (上傳圖像，然後描述編輯): 提供現有圖像並指定您想要的變更 (例如，替換物件、更新標籤/海報上的文字、移除動態模糊、清理背景)。MAI-Image-2.5 旨在在應用局部編輯的同時保持圖像其餘部分的穩定。

6) 使用精細的局部編輯指令: 編輯時，明確說明必須變更的內容和必須保持不變的內容 (例如，「只替換瓶子標籤上的標誌；保持照明、反射和背景相同」)。該模型被描述為支援精確、可控的編輯，而不會改變場景的其餘部分。

7) 利用場景結構感知進行逼真的編輯: 對於添加/移除，包括關於透視、陰影和比例的約束 (例如，「在桌子上添加一個杯子，具有匹配的透視和與窗戶光線一致的柔和陰影」)。MAI-Image-2.5 被描述為理解照明和空間關係以進行符合上下文的編輯。

8) 在編輯中保持臉部/身份一致性 (適用時): 如果編輯肖像，請指定在改變姿勢/表情/視角時必須保留身份 (例如，「保持同一個人；將表情改為微妙的微笑；保持膚色和面部特徵一致」)。MAI-Image-2.5 被描述為在編輯中保留可識別的相似性。

9) 透過 Microsoft Foundry 投入生產 (開發人員/API 路線): 在 Microsoft Foundry 中，找到 MAI-Image-2.5 或 MAI-Image-2.5-Flash 模型卡，並將其部署/用作您應用程式的模型端點。Foundry 被描述為透過 API 呼叫模型的主要開發人員存取路線。

10) 使用正確的變體優化成本和吞吐量: 對於批次生成或大容量管道，首選 MAI-Image-2.5-Flash；對於優質創意資產和最大編輯保真度，首選 MAI-Image-2.5。官方來源強調 Flash 更快/成本更低，而 MAI-Image-2.5 具有最大保真度。

11) 在 Microsoft 產品中使用 (可用時): PowerPoint：在 PowerPoint 中使用 Copilot 從提示生成可供演示的視覺效果/投影片。OneDrive：使用 AI 照片編輯功能 (正在推出) 進行精確編輯，例如移除干擾和清理背景，同時保留原始場景。

12) 對於敏感用例添加人工審查步驟: Microsoft 指出，該模型可能會產生看似合理但不準確/誤導性的視覺細節，並可能反映訓練資料的偏差。在敏感情境 (身份、法律、醫療、金融或新聞相關工作流程) 中使用輸出之前進行審查。