MAI发布了哪些模型？

MAI已经发布了三个基础模型：MAI-Transcribe-1（一个支持25种语言的多语言语音转文本模型），MAI-Voice-1（一个用于自然、富有表现力的语音的下一代语音模型）和MAI-Image-2（一个图像生成模型）。还有MAI-1-Preview，他们的第一个端到端基础模型，目前尚不可用。

是什么让MAI-Transcribe-1与众不同？

MAI-Transcribe-1被描述为世界上在25种语言中准确率最高的转录模型。它是专门为具有挑战性的录音条件而构建的，可以可靠地处理背景噪音、低质量的录音和重叠的语音——使其成为语音代理、会议转录和呼叫中心分析等生产用例的理想选择。

MAI模型在哪里可用？

MAI模型可在Microsoft Foundry上获得。这些模型也可以通过playground.microsoft.ai/chat上的MAI Playground访问。

MAI从事哪些消费者产品的工作？

MAI的主要消费者人工智能产品包括Copilot、Bing、GroupMe、Edge和MSN。该部门还有团队致力于数据、安全、隐私、货币化、健康、负责任的人工智能、商业和微软广告。

MAI的战略如何与微软的OpenAI合作伙伴关系相适应？

MAI代表了微软摆脱其OpenAI合作伙伴关系并拥有其人工智能堆栈的举措。该公司现在通过Azure OpenAI服务提供OpenAI模型，以及其自己的MAI基础模型，从而使企业客户可以更好地控制人工智能工具，尤其是在许可、数据隐私和定制方面。

什么是\"人文主义超级智能\"？

人文主义超级智能是MAI对高级人工智能的愿景，旨在保持可控、一致并坚定地为人类服务。它不是要超越人类的能力，而是要放大它，扩展人们可以想象和实现的目标。该方法优先考虑将人类置于控制之中，将对齐构建到架构中，在每个阶段进行压力测试安全性，并优先考虑现实世界的影响。

谁领导MAI，它是什么时候成立的？

MAI由谷歌DeepMind前联合创始人穆斯塔法·苏莱曼担任首席执行官。该部门成立于10月（在模型发布前六个月），使其成为微软内部一个相对较新但生产力迅速提高的组织。

MAI

WebsiteFree TrialAI Code Assistant AI Developer Tools

MAI (Microsoft AI) 是微软内部的 AI 研究部门，负责开发多模式基础模型，包括图像生成、语音转录和语音合成，在全球 AI 实验室中排名前三，同时优先考虑人道主义超智能原则。

访问网站

推广此工具

https://microsoft.ai/?ref=producthunt&utm_source=aipure

概述
视频
替代方案

产品信息

更新于：2026年04月10日

什么是 MAI

Microsoft AI (MAI) 是微软的人工智能研究实验室和部门，成立于 2024 年 3 月，总部位于华盛顿州雷德蒙德。MAI 由 DeepMind 和 Inflection AI 的前联合创始人 Mustafa Suleyman 担任首席执行官，负责监管包括 Copilot、Bing、Edge 和 GroupMe 在内的消费者 AI 产品。成立该部门的目的是为了让微软在技术上更加独立于其与 OpenAI 的合作关系，尽管该公司自 2019 年以来已向 OpenAI 投资了 130 亿美元。2025 年 11 月，MAI 宣布成立一个超智能团队，其使命是构建“人道主义超智能”——旨在保持可控、与人类价值观保持一致并坚定地为人类服务的先进 AI 系统。该部门拥有前沿规模的计算基础设施，包括下一代 GB200 集群，并迅速确立了自己在 AI 行业的竞争地位。

MAI 的主要功能

微软人工智能 (MAI) 是微软内部的人工智能研究部门，由 Mustafa Suleyman 领导，专注于开发“人道主义超级智能”——优先考虑人类控制、安全和实际应用的高级人工智能系统。该部门发布了一套基础多模态人工智能模型，包括用于 25 种语言的语音转文本的 MAI-Transcribe-1、具有自定义语音克隆功能的自然语音生成的 MAI-Voice-1 以及用于照片级逼真图像生成的 MAI-Image-2。这些模型通过 Microsoft Foundry 提供，并为 Copilot、Bing 和 Edge 等消费产品提供支持。MAI 强调具有竞争力的定价（GPU 成本比替代方案低约 50%）、更快的性能（转录速度比 Azure Fast 快 2.5 倍）以及企业级安全性，并经过严格的测试和负责任的 AI 实践。

MAI-Transcribe-1：多语言语音识别: 最先进的语音转文本转录，支持 25 种语言，具有企业级准确性，批量处理速度比 Azure Fast 快 2.5 倍，并针对包括背景噪音、低质量音频和重叠语音在内的实际条件进行了优化，而 GPU 成本降低了约 50%。

MAI-Voice-1：自定义语音生成: 下一代语音合成，产生自然、富有表现力的语音，并且能够仅从几秒钟的音频（10 秒样本）创建自定义 AI 语音。在单个 GPU 上不到一秒钟即可生成一整分钟的音频，并在长篇内容中保留说话者身份。

MAI-Image-2：照片级逼真图像创建: 先进的文本到图像模型，在 Arena.ai 排行榜上排名第 3，专为创意人员打造，具有自然光照、准确的肤色、逼真的环境和可靠的图像内文本生成。与前代产品相比，生成时间缩短了 2 倍，并提供以企业为中心的许可和数据隐私。

人道主义超级智能理念: 一种以人为本的 AI 开发方法，针对人们实际的沟通方式进行优化，并针对实际应用进行培训。强调保持 AI 的可控性、一致性，并坚定地为人类服务，在每个阶段都进行严格的安全测试和红队演练。

Microsoft Foundry 集成: 用于部署和管理 MAI 模型的统一平台，具有企业级安全性，包括数据加密、基于角色的访问控制、合规性认证、内置防护措施和治理功能，可实现大规模的安全 AI 部署。

有竞争力的定价和性能: 这些模型的定价具有很强的竞争力，可以与 OpenAI 和 Google 的产品竞争 - 转录每小时 0.36 美元，语音每百万字符 22 美元，图像每百万个令牌 5-33 美元 - 旨在降低 Microsoft 的商品销售成本，同时提供卓越的性能。

MAI 的使用场景

全球呼叫中心分析: 部署 MAI-Transcribe-1，用于实时转录 25 种语言的客户服务电话，处理嘈杂的电话线路和各种口音，以实现自动质量监控、情绪分析和合规性跟踪，而 GPU 成本比替代方案低 50%。

语音代理开发: 结合使用 MAI-Voice-1 和 MAI-Transcribe-1 构建对话式 AI 代理，以创建能够精确地听和说的自然语音体验，从而支持具有自定义品牌声音的客户支持机器人、虚拟助手和交互式语音应答系统。

创意营销内容制作: 使用 MAI-Image-2 生成照片级逼真的营销材料、社交媒体内容、产品可视化和品牌传播，具有准确的文本渲染、自然光照和多样化的表现形式，从而减少创意团队的后期制作时间。

会议和会议转录: 在会议室和虚拟环境中实施 MAI-Transcribe-1 进行企业会议转录，可靠地处理重叠的语音、背景噪音和多种语言，从而为全球团队创建可搜索的记录和自动摘要。

医疗保健文档: 在医疗环境中应用 MAI-Transcribe-1，用于转录医生-患者咨询、医疗程序和临床笔记，支持多种语言，并具有企业级准确性，并通过 Microsoft 的安全基础设施符合医疗保健数据隐私标准。

播客和媒体制作: 利用 MAI-Voice-1 创建 AI 生成的播客内容、有声读物旁白和配音，具有自然的表现力和情感范围，同时使用 MAI-Transcribe-1 以多种语言进行准确的转录和字幕生成。

优点

成本显着降低，与领先的替代方案相比，GPU 成本降低了约 50%，同时保持了具有竞争力的或卓越的性能

全面的多模态套件，涵盖语音、语音和图像生成，并通过 Microsoft Foundry 和现有的 Microsoft 产品实现无缝集成

非常重视负责任的 AI，具有严格的红队演练、企业级安全性、合规性认证和适当许可的训练数据，从而降低了法律风险

卓越的速度性能，包括快 2.5 倍的转录速度，并且能够在不到一秒钟的时间内生成一分钟的音频

缺点

MAI-Image-2 目前在 Arena.ai 排行榜上排名第 5（之前为第 3），落后于 Google 的 Nano Banana 2 和 OpenAI 的 GPT-Image 1.5 等竞争对手，表明存在性能差距

模型可用性有限，MAI-1-Preview 尚未公开访问，并且某些模型需要通过 Foundry 的批准流程才能访问

对于开发人员而言，Microsoft 提供 OpenAI 模型、MAI 模型以及跨产品线的各种其他 AI 功能，但没有明确的指导说明应使用哪种模型，这可能会导致策略混淆

相对较新的部门（成立于 2025 年 11 月），模型只有六个月的历史，这意味着与 OpenAI 和 Google 的成熟替代方案相比，在生产中的测试较少

如何使用 MAI

1. 通过 Microsoft 平台访问 MAI 模型: MAI 模型可通过多个 Microsoft 平台获得：Microsoft Foundry（适用于开发人员和企业）、MAI Playground（适用于测试和实验）、Copilot、Bing Image Creator、Microsoft Teams 和其他 Microsoft 产品。

2. 使用 MAI-Image-2 进行图像生成: 通过 Copilot 或 Bing Image Creator 访问 MAI-Image-2。在 Bing Image Creator 中，您可以选择 MAI-Image-2、DALL-E 3 或 GPT-4o。输入描述您想要的图像的文本提示（例如，“像大教堂内部一样高耸的冰川墙，深蓝色冰块，光线穿过层层折射”）。该模型擅长生成具有自然光照、准确肤色和逼真环境的逼真图像。图像生成速度至少比以前的系统快 2 倍。

3. 使用 MAI-Transcribe-1 进行语音转文本: 通过 Microsoft Foundry、Azure Speech 或 MAI Playground 访问 MAI-Transcribe-1。上传音频文件（在 Playground 中最大 10 MB）或直接录制音频。该模型支持 25 种语言，即使在嘈杂的真实环境中也能提供准确的转录。它的批量转录处理速度比 Azure Fast 产品快 2.5 倍。定价为每小时音频 0.36 美元。

4. 使用 MAI-Voice-1 进行语音生成: 通过 Microsoft Foundry 访问 MAI-Voice-1。该模型可以在一秒钟内生成 60 秒的音频。要创建自定义语音，只需提供几秒钟的音频样本即可。该模型可以生成自然、富有表现力的语音，具有情感范围，并在长篇内容中保留说话者的身份。定价起价为每百万字符 22 美元。

5. 通过 Microsoft Foundry 进行开发者访问: 对于 API 访问和生产用途，请注册 Microsoft Foundry。如果您还没有 Foundry 访问权限，请填写访问表单。获得批准后，您可以将 MAI 模型集成到您的应用程序中，并具有内置的防护措施、治理和企业级控制。定价：MAI-Image-2 的成本为每百万个令牌（文本输入）5 美元，每百万个令牌（图像输出）33 美元。

6. 在 MAI Playground 中测试模型: 访问 playground.microsoft.ai 以试验 MAI 模型，而无需完全访问 Foundry。通过录制或上传音频文件来测试 MAI-Transcribe-1。尝试使用各种文本提示来测试 MAI-Image-2。提供有关模型性能的反馈，以帮助改进未来的版本。

7. 在 Microsoft 产品中使用 MAI 模型: MAI-Transcribe-1 已集成到 Copilot 的语音模式和 Microsoft Teams 中，用于对话转录。MAI-Image-2 正在 Bing、PowerPoint 和 Copilot 中推出。MAI-Image-1 可在 Bing Image Creator 中使用，并可在音频表达的故事模式中使用。只需正常使用这些产品，MAI 模型即可为幕后的 AI 功能提供支持。

8. 企业和生产部署: 对于呼叫中心分析、会议转录、语音代理、内容创建或大规模图像生成等企业用例，请联系 Microsoft 以获取 Foundry 访问权限。根据您的需求，在云端或本地部署模型。利用内置的安全功能、合规性工具和治理控制来实现负责任的 AI 部署。