
MAI
MAI (Microsoft AI) 是微软内部的 AI 研究部门,负责开发多模式基础模型,包括图像生成、语音转录和语音合成,在全球 AI 实验室中排名前三,同时优先考虑人道主义超智能原则。
https://microsoft.ai/?ref=producthunt&utm_source=aipure

产品信息
更新于:2026年04月10日
什么是 MAI
Microsoft AI (MAI) 是微软的人工智能研究实验室和部门,成立于 2024 年 3 月,总部位于华盛顿州雷德蒙德。MAI 由 DeepMind 和 Inflection AI 的前联合创始人 Mustafa Suleyman 担任首席执行官,负责监管包括 Copilot、Bing、Edge 和 GroupMe 在内的消费者 AI 产品。成立该部门的目的是为了让微软在技术上更加独立于其与 OpenAI 的合作关系,尽管该公司自 2019 年以来已向 OpenAI 投资了 130 亿美元。2025 年 11 月,MAI 宣布成立一个超智能团队,其使命是构建“人道主义超智能”——旨在保持可控、与人类价值观保持一致并坚定地为人类服务的先进 AI 系统。该部门拥有前沿规模的计算基础设施,包括下一代 GB200 集群,并迅速确立了自己在 AI 行业的竞争地位。
MAI 的主要功能
微软人工智能 (MAI) 是微软内部的人工智能研究部门,由 Mustafa Suleyman 领导,专注于开发“人道主义超级智能”——优先考虑人类控制、安全和实际应用的高级人工智能系统。该部门发布了一套基础多模态人工智能模型,包括用于 25 种语言的语音转文本的 MAI-Transcribe-1、具有自定义语音克隆功能的自然语音生成的 MAI-Voice-1 以及用于照片级逼真图像生成的 MAI-Image-2。这些模型通过 Microsoft Foundry 提供,并为 Copilot、Bing 和 Edge 等消费产品提供支持。MAI 强调具有竞争力的定价(GPU 成本比替代方案低约 50%)、更快的性能(转录速度比 Azure Fast 快 2.5 倍)以及企业级安全性,并经过严格的测试和负责任的 AI 实践。
MAI-Transcribe-1:多语言语音识别: 最先进的语音转文本转录,支持 25 种语言,具有企业级准确性,批量处理速度比 Azure Fast 快 2.5 倍,并针对包括背景噪音、低质量音频和重叠语音在内的实际条件进行了优化,而 GPU 成本降低了约 50%。
MAI-Voice-1:自定义语音生成: 下一代语音合成,产生自然、富有表现力的语音,并且能够仅从几秒钟的音频(10 秒样本)创建自定义 AI 语音。在单个 GPU 上不到一秒钟即可生成一整分钟的音频,并在长篇内容中保留说话者身份。
MAI-Image-2:照片级逼真图像创建: 先进的文本到图像模型,在 Arena.ai 排行榜上排名第 3,专为创意人员打造,具有自然光照、准确的肤色、逼真的环境和可靠的图像内文本生成。与前代产品相比,生成时间缩短了 2 倍,并提供以企业为中心的许可和数据隐私。
人道主义超级智能理念: 一种以人为本的 AI 开发方法,针对人们实际的沟通方式进行优化,并针对实际应用进行培训。强调保持 AI 的可控性、一致性,并坚定地为人类服务,在每个阶段都进行严格的安全测试和红队演练。
Microsoft Foundry 集成: 用于部署和管理 MAI 模型的统一平台,具有企业级安全性,包括数据加密、基于角色的访问控制、合规性认证、内置防护措施和治理功能,可实现大规模的安全 AI 部署。
有竞争力的定价和性能: 这些模型的定价具有很强的竞争力,可以与 OpenAI 和 Google 的产品竞争 - 转录每小时 0.36 美元,语音每百万字符 22 美元,图像每百万个令牌 5-33 美元 - 旨在降低 Microsoft 的商品销售成本,同时提供卓越的性能。
MAI 的使用场景
全球呼叫中心分析: 部署 MAI-Transcribe-1,用于实时转录 25 种语言的客户服务电话,处理嘈杂的电话线路和各种口音,以实现自动质量监控、情绪分析和合规性跟踪,而 GPU 成本比替代方案低 50%。
语音代理开发: 结合使用 MAI-Voice-1 和 MAI-Transcribe-1 构建对话式 AI 代理,以创建能够精确地听和说的自然语音体验,从而支持具有自定义品牌声音的客户支持机器人、虚拟助手和交互式语音应答系统。
创意营销内容制作: 使用 MAI-Image-2 生成照片级逼真的营销材料、社交媒体内容、产品可视化和品牌传播,具有准确的文本渲染、自然光照和多样化的表现形式,从而减少创意团队的后期制作时间。
会议和会议转录: 在会议室和虚拟环境中实施 MAI-Transcribe-1 进行企业会议转录,可靠地处理重叠的语音、背景噪音和多种语言,从而为全球团队创建可搜索的记录和自动摘要。
医疗保健文档: 在医疗环境中应用 MAI-Transcribe-1,用于转录医生-患者咨询、医疗程序和临床笔记,支持多种语言,并具有企业级准确性,并通过 Microsoft 的安全基础设施符合医疗保健数据隐私标准。
播客和媒体制作: 利用 MAI-Voice-1 创建 AI 生成的播客内容、有声读物旁白和配音,具有自然的表现力和情感范围,同时使用 MAI-Transcribe-1 以多种语言进行准确的转录和字幕生成。
优点
成本显着降低,与领先的替代方案相比,GPU 成本降低了约 50%,同时保持了具有竞争力的或卓越的性能
全面的多模态套件,涵盖语音、语音和图像生成,并通过 Microsoft Foundry 和现有的 Microsoft 产品实现无缝集成
非常重视负责任的 AI,具有严格的红队演练、企业级安全性、合规性认证和适当许可的训练数据,从而降低了法律风险
卓越的速度性能,包括快 2.5 倍的转录速度,并且能够在不到一秒钟的时间内生成一分钟的音频
缺点
MAI-Image-2 目前在 Arena.ai 排行榜上排名第 5(之前为第 3),落后于 Google 的 Nano Banana 2 和 OpenAI 的 GPT-Image 1.5 等竞争对手,表明存在性能差距
模型可用性有限,MAI-1-Preview 尚未公开访问,并且某些模型需要通过 Foundry 的批准流程才能访问
对于开发人员而言,Microsoft 提供 OpenAI 模型、MAI 模型以及跨产品线的各种其他 AI 功能,但没有明确的指导说明应使用哪种模型,这可能会导致策略混淆
相对较新的部门(成立于 2025 年 11 月),模型只有六个月的历史,这意味着与 OpenAI 和 Google 的成熟替代方案相比,在生产中的测试较少
如何使用 MAI
1. 通过 Microsoft 平台访问 MAI 模型: MAI 模型可通过多个 Microsoft 平台获得:Microsoft Foundry(适用于开发人员和企业)、MAI Playground(适用于测试和实验)、Copilot、Bing Image Creator、Microsoft Teams 和其他 Microsoft 产品。
2. 使用 MAI-Image-2 进行图像生成: 通过 Copilot 或 Bing Image Creator 访问 MAI-Image-2。在 Bing Image Creator 中,您可以选择 MAI-Image-2、DALL-E 3 或 GPT-4o。输入描述您想要的图像的文本提示(例如,“像大教堂内部一样高耸的冰川墙,深蓝色冰块,光线穿过层层折射”)。该模型擅长生成具有自然光照、准确肤色和逼真环境的逼真图像。图像生成速度至少比以前的系统快 2 倍。
3. 使用 MAI-Transcribe-1 进行语音转文本: 通过 Microsoft Foundry、Azure Speech 或 MAI Playground 访问 MAI-Transcribe-1。上传音频文件(在 Playground 中最大 10 MB)或直接录制音频。该模型支持 25 种语言,即使在嘈杂的真实环境中也能提供准确的转录。它的批量转录处理速度比 Azure Fast 产品快 2.5 倍。定价为每小时音频 0.36 美元。
4. 使用 MAI-Voice-1 进行语音生成: 通过 Microsoft Foundry 访问 MAI-Voice-1。该模型可以在一秒钟内生成 60 秒的音频。要创建自定义语音,只需提供几秒钟的音频样本即可。该模型可以生成自然、富有表现力的语音,具有情感范围,并在长篇内容中保留说话者的身份。定价起价为每百万字符 22 美元。
5. 通过 Microsoft Foundry 进行开发者访问: 对于 API 访问和生产用途,请注册 Microsoft Foundry。如果您还没有 Foundry 访问权限,请填写访问表单。获得批准后,您可以将 MAI 模型集成到您的应用程序中,并具有内置的防护措施、治理和企业级控制。定价:MAI-Image-2 的成本为每百万个令牌(文本输入)5 美元,每百万个令牌(图像输出)33 美元。
6. 在 MAI Playground 中测试模型: 访问 playground.microsoft.ai 以试验 MAI 模型,而无需完全访问 Foundry。通过录制或上传音频文件来测试 MAI-Transcribe-1。尝试使用各种文本提示来测试 MAI-Image-2。提供有关模型性能的反馈,以帮助改进未来的版本。
7. 在 Microsoft 产品中使用 MAI 模型: MAI-Transcribe-1 已集成到 Copilot 的语音模式和 Microsoft Teams 中,用于对话转录。MAI-Image-2 正在 Bing、PowerPoint 和 Copilot 中推出。MAI-Image-1 可在 Bing Image Creator 中使用,并可在音频表达的故事模式中使用。只需正常使用这些产品,MAI 模型即可为幕后的 AI 功能提供支持。
8. 企业和生产部署: 对于呼叫中心分析、会议转录、语音代理、内容创建或大规模图像生成等企业用例,请联系 Microsoft 以获取 Foundry 访问权限。根据您的需求,在云端或本地部署模型。利用内置的安全功能、合规性工具和治理控制来实现负责任的 AI 部署。
MAI 常见问题
MAI是由穆斯塔法·苏莱曼(前谷歌DeepMind联合创始人)领导下成立的微软人工智能部门。其使命是构建\"人文主义超级智能\"——世界上最强大的人工智能系统,这些系统既具有高度能力,又非常安全,并将人类置于每个决策的中心。MAI旨在创造能够解决实际问题的实用超级智能,同时保持在人类的控制之下。











