MAI đã phát hành những mô hình nào?

MAI đã phát hành ba mô hình nền tảng: MAI-Transcribe-1 (mô hình chuyển giọng nói thành văn bản đa ngôn ngữ hỗ trợ 25 ngôn ngữ), MAI-Voice-1 (mô hình giọng nói thế hệ tiếp theo cho giọng nói tự nhiên, biểu cảm) và MAI-Image-2 (mô hình tạo hình ảnh). Ngoài ra còn có MAI-1-Preview, mô hình nền tảng đầu cuối đầu tiên của họ, hiện chưa có sẵn.

Điều gì làm cho MAI-Transcribe-1 trở nên đặc biệt?

MAI-Transcribe-1 được mô tả là mô hình phiên âm chính xác nhất trên thế giới trên 25 ngôn ngữ. Nó được xây dựng đặc biệt cho các điều kiện ghi âm khó khăn, xử lý đáng tin cậy tiếng ồn xung quanh, bản ghi âm thanh chất lượng thấp và giọng nói chồng chéo - khiến nó trở nên lý tưởng cho các trường hợp sử dụng sản xuất như trợ lý giọng nói, phiên âm cuộc họp và phân tích trung tâm cuộc gọi.

Các mô hình MAI có sẵn ở đâu?

Các mô hình MAI có sẵn trên Microsoft Foundry. Các mô hình này cũng có thể được truy cập thông qua MAI Playground tại playground.microsoft.ai/chat.

MAI làm việc trên những sản phẩm tiêu dùng nào?

Các sản phẩm AI tiêu dùng chính của MAI bao gồm Copilot, Bing, GroupMe, Edge và MSN. Bộ phận này cũng có các nhóm làm việc về Dữ liệu, Bảo mật, Quyền riêng tư, Kiếm tiền, Sức khỏe, AI có trách nhiệm, Thương mại và Quảng cáo của Microsoft.

Chiến lược của MAI phù hợp với quan hệ đối tác OpenAI của Microsoft như thế nào?

MAI đại diện cho động thái của Microsoft nhằm thiết lập sự độc lập khỏi quan hệ đối tác OpenAI và sở hữu ngăn xếp AI của riêng mình. Hiện tại, công ty cung cấp các mô hình OpenAI thông qua Azure OpenAI Service cùng với các mô hình nền tảng MAI của riêng mình, giúp khách hàng doanh nghiệp kiểm soát nhiều hơn các công cụ AI, đặc biệt là về cấp phép, quyền riêng tư dữ liệu và tùy chỉnh.

\"Siêu trí tuệ Nhân văn\" là gì?

Siêu trí tuệ Nhân văn là tầm nhìn của MAI về AI tiên tiến được thiết kế để luôn có thể kiểm soát, phù hợp và phục vụ vững chắc cho nhân loại. Nó không phải là về việc vượt qua khả năng của con người mà là khuếch đại nó, mở rộng những gì mọi người có thể tưởng tượng và đạt được. Cách tiếp cận này ưu tiên việc giữ con người kiểm soát, xây dựng sự phù hợp vào kiến trúc, kiểm tra độ an toàn ở mọi giai đoạn và ưu tiên tác động thực tế.

Ai lãnh đạo MAI và nó được thành lập khi nào?

MAI được dẫn dắt bởi Giám đốc điều hành Mustafa Suleyman, cựu đồng sáng lập của Google DeepMind. Bộ phận này được thành lập vào tháng 10 (sáu tháng trước khi phát hành mô hình), khiến nó trở thành một tổ chức tương đối mới nhưng có năng suất nhanh chóng trong Microsoft.

MAI

WebsiteFree TrialAI Code Assistant AI Developer Tools

MAI (Microsoft AI) là bộ phận nghiên cứu AI nội bộ của Microsoft, phát triển các mô hình nền tảng đa phương thức bao gồm tạo hình ảnh, phiên âm giọng nói và tổng hợp giọng nói, xếp hạng trong số ba phòng thí nghiệm AI hàng đầu trên toàn cầu đồng thời ưu tiên các nguyên tắc siêu trí tuệ nhân văn.

Truy cập Trang web

Quảng Cáo Công Cụ Này

https://microsoft.ai/?ref=producthunt&utm_source=aipure

Tổng quan
Video
Các lựa chọn thay thế

Thông tin Sản phẩm

Đã cập nhật:Apr 10, 2026

MAI là gì

Microsoft AI (MAI) là một phòng thí nghiệm nghiên cứu trí tuệ nhân tạo và là một bộ phận của Microsoft, được thành lập vào tháng 3 năm 2024 và có trụ sở chính tại Redmond, Washington. Được lãnh đạo bởi Giám đốc điều hành Mustafa Suleyman, cựu đồng sáng lập của DeepMind và Inflection AI, MAI giám sát các sản phẩm AI tiêu dùng bao gồm Copilot, Bing, Edge và GroupMe. Bộ phận này được thành lập để mang lại cho Microsoft sự độc lập về công nghệ lớn hơn so với quan hệ đối tác OpenAI, mặc dù công ty đã đầu tư 13 tỷ đô la vào OpenAI kể từ năm 2019. Vào tháng 11 năm 2025, MAI đã công bố thành lập một nhóm Siêu trí tuệ với sứ mệnh xây dựng \'Siêu trí tuệ Nhân văn\'—các hệ thống AI tiên tiến được thiết kế để duy trì khả năng kiểm soát, phù hợp với các giá trị của con người và kiên quyết phục vụ nhân loại. Bộ phận này hoạt động với cơ sở hạ tầng tính toán quy mô biên giới, bao gồm các cụm GB200 thế hệ tiếp theo và đã nhanh chóng khẳng định mình là một lực lượng cạnh tranh trong ngành AI.

Các Tính năng Chính của MAI

Microsoft AI (MAI) là bộ phận nghiên cứu AI nội bộ của Microsoft do Mustafa Suleyman lãnh đạo, tập trung vào phát triển \'Siêu trí tuệ nhân văn\' - các hệ thống AI tiên tiến ưu tiên kiểm soát, an toàn và ứng dụng thực tế của con người. Bộ phận này đã phát hành một bộ các mô hình AI đa phương thức nền tảng bao gồm MAI-Transcribe-1 để chuyển giọng nói thành văn bản trên 25 ngôn ngữ, MAI-Voice-1 để tạo giọng nói tự nhiên với khả năng nhân bản giọng nói tùy chỉnh và MAI-Image-2 để tạo hình ảnh chân thực. Các mô hình này có sẵn thông qua Microsoft Foundry và cung cấp năng lượng cho các sản phẩm tiêu dùng như Copilot, Bing và Edge. MAI nhấn mạnh giá cả cạnh tranh (chi phí GPU thấp hơn khoảng 50% so với các giải pháp thay thế), hiệu suất nhanh hơn (nhanh hơn 2,5 lần so với Azure Fast để phiên âm) và an toàn cấp doanh nghiệp với thử nghiệm nghiêm ngặt và các biện pháp thực hành AI có trách nhiệm.

MAI-Transcribe-1: Nhận dạng Giọng nói Đa ngôn ngữ: Phiên âm giọng nói thành văn bản hiện đại trên 25 ngôn ngữ với độ chính xác cấp doanh nghiệp, xử lý hàng loạt nhanh hơn 2,5 lần so với Azure Fast và được tối ưu hóa cho các điều kiện thực tế bao gồm tiếng ồn xung quanh, âm thanh chất lượng thấp và giọng nói chồng chéo với chi phí GPU thấp hơn khoảng 50%.

MAI-Voice-1: Tạo Giọng nói Tùy chỉnh: Tổng hợp giọng nói thế hệ tiếp theo tạo ra giọng nói tự nhiên, biểu cảm với khả năng tạo giọng nói AI tùy chỉnh chỉ từ một vài giây âm thanh (mẫu 10 giây). Tạo ra một phút âm thanh đầy đủ trong vòng chưa đầy một giây trên một GPU duy nhất với danh tính người nói được bảo tồn trên nội dung dạng dài.

MAI-Image-2: Tạo Hình ảnh Chân thực: Mô hình chuyển văn bản thành hình ảnh tiên tiến xếp hạng #3 trên bảng xếp hạng Arena.ai, được xây dựng cho những người sáng tạo với ánh sáng tự nhiên, tông màu da chính xác, môi trường sống động và tạo văn bản trong hình ảnh đáng tin cậy. Cung cấp thời gian tạo nhanh hơn gấp 2 lần so với người tiền nhiệm với giấy phép và bảo mật dữ liệu tập trung vào doanh nghiệp.

Triết lý Siêu trí tuệ Nhân văn: Phương pháp phát triển AI đặt con người vào trung tâm, tối ưu hóa cách mọi người thực sự giao tiếp và đào tạo để sử dụng thực tế. Nhấn mạnh việc giữ cho AI có thể kiểm soát, phù hợp và phục vụ vững chắc cho nhân loại với thử nghiệm an toàn nghiêm ngặt và red-teaming ở mọi giai đoạn.

Tích hợp Microsoft Foundry: Nền tảng hợp nhất để triển khai và quản lý các mô hình MAI với bảo mật cấp doanh nghiệp bao gồm mã hóa dữ liệu, kiểm soát truy cập dựa trên vai trò, chứng nhận tuân thủ, biện pháp bảo vệ tích hợp và các tính năng quản trị để triển khai AI an toàn ở quy mô lớn.

Giá cả và Hiệu suất Cạnh tranh: Các mô hình có giá cạnh tranh để cạnh tranh với các dịch vụ của OpenAI và Google - $0,36/giờ cho phiên âm, $22 cho mỗi triệu ký tự cho giọng nói, $5-33 cho mỗi triệu mã thông báo cho hình ảnh - được thiết kế để giảm chi phí hàng hóa đã bán của Microsoft đồng thời mang lại hiệu suất vượt trội.

Các Trường hợp Sử dụng của MAI

Phân tích Trung tâm Cuộc gọi Toàn cầu: Triển khai MAI-Transcribe-1 để phiên âm theo thời gian thực các cuộc gọi dịch vụ khách hàng trên 25 ngôn ngữ, xử lý đường dây điện thoại ồn ào và các giọng khác nhau để cho phép giám sát chất lượng tự động, phân tích tình cảm và theo dõi tuân thủ với chi phí GPU thấp hơn 50% so với các giải pháp thay thế.

Phát triển Đại lý Giọng nói: Xây dựng các đại lý AI đàm thoại bằng MAI-Voice-1 và MAI-Transcribe-1 cùng nhau để tạo ra trải nghiệm giọng nói tự nhiên có thể vừa nghe vừa nói một cách chính xác, cho phép bot hỗ trợ khách hàng, trợ lý ảo và hệ thống phản hồi bằng giọng nói tương tác với giọng nói thương hiệu tùy chỉnh.

Sản xuất Nội dung Tiếp thị Sáng tạo: Sử dụng MAI-Image-2 để tạo tài liệu tiếp thị chân thực, nội dung truyền thông xã hội, hình ảnh sản phẩm và thông tin liên lạc có thương hiệu với kết xuất văn bản chính xác, ánh sáng tự nhiên và đại diện đa dạng, giảm thời gian hậu sản xuất cho các nhóm sáng tạo.

Phiên âm Cuộc họp và Hội nghị: Triển khai MAI-Transcribe-1 để phiên âm cuộc họp doanh nghiệp trong phòng hội nghị và môi trường ảo, xử lý đáng tin cậy giọng nói chồng chéo, tiếng ồn xung quanh và nhiều ngôn ngữ để tạo hồ sơ có thể tìm kiếm và tóm tắt tự động cho các nhóm toàn cầu.

Tài liệu Chăm sóc Sức khỏe: Áp dụng MAI-Transcribe-1 trong môi trường y tế để phiên âm các cuộc tư vấn giữa bác sĩ và bệnh nhân, các thủ tục y tế và ghi chú lâm sàng trên các ngôn ngữ với độ chính xác cấp doanh nghiệp và tuân thủ các tiêu chuẩn bảo mật dữ liệu chăm sóc sức khỏe thông qua cơ sở hạ tầng an toàn của Microsoft.

Sản xuất Podcast và Truyền thông: Tận dụng MAI-Voice-1 để tạo nội dung podcast do AI tạo, tường thuật sách nói và lồng tiếng với biểu cảm tự nhiên và phạm vi cảm xúc, đồng thời sử dụng MAI-Transcribe-1 để phiên âm chính xác và tạo phụ đề bằng nhiều ngôn ngữ.

Ưu điểm

Chi phí thấp hơn đáng kể với mức giảm chi phí GPU khoảng 50% so với các giải pháp thay thế hàng đầu trong khi vẫn duy trì hiệu suất cạnh tranh hoặc vượt trội

Bộ đa phương thức toàn diện bao gồm giọng nói, giọng nói và tạo hình ảnh với tích hợp liền mạch thông qua Microsoft Foundry và các sản phẩm Microsoft hiện có

Nhấn mạnh mạnh mẽ vào AI có trách nhiệm với red-teaming nghiêm ngặt, bảo mật cấp doanh nghiệp, chứng nhận tuân thủ và dữ liệu đào tạo được cấp phép phù hợp giúp giảm rủi ro pháp lý

Hiệu suất tốc độ vượt trội bao gồm phiên âm nhanh hơn 2,5 lần và khả năng tạo một phút âm thanh trong vòng chưa đầy một giây

Nhược điểm

MAI-Image-2 hiện đang xếp hạng #5 trên bảng xếp hạng Arena.ai (trước đây là #3), sau các đối thủ cạnh tranh như Nano Banana 2 của Google và GPT-Image 1.5 của OpenAI, cho thấy khoảng cách hiệu suất

Tính khả dụng của mô hình hạn chế với MAI-1-Preview chưa được truy cập công khai và một số mô hình yêu cầu quy trình phê duyệt để truy cập thông qua Foundry

Khả năng gây nhầm lẫn về chiến lược cho các nhà phát triển khi Microsoft cung cấp các mô hình OpenAI, mô hình MAI và các khả năng AI khác nhau trên các dòng sản phẩm mà không có hướng dẫn rõ ràng về việc nên sử dụng mô hình nào

Bộ phận tương đối mới (được thành lập vào tháng 11 năm 2025) với các mô hình chỉ mới sáu tháng tuổi, có nghĩa là ít được thử nghiệm trong sản xuất hơn so với các giải pháp thay thế đã được thiết lập từ OpenAI và Google

Cách Sử dụng MAI

1. Truy cập Mô hình MAI thông qua Nền tảng Microsoft: Các mô hình MAI có sẵn thông qua nhiều nền tảng Microsoft: Microsoft Foundry (dành cho nhà phát triển và doanh nghiệp), MAI Playground (dành cho thử nghiệm và thử nghiệm), Copilot, Bing Image Creator, Microsoft Teams và các sản phẩm Microsoft khác.

2. Sử dụng MAI-Image-2 để Tạo Hình ảnh: Truy cập MAI-Image-2 thông qua Copilot hoặc Bing Image Creator. Trong Bing Image Creator, bạn có thể chọn giữa MAI-Image-2, DALL-E 3 hoặc GPT-4o. Nhập lời nhắc văn bản mô tả hình ảnh bạn muốn (ví dụ: \'Một bức tường sông băng cao chót vót như nội thất nhà thờ, băng màu xanh đậm với ánh sáng khúc xạ qua các lớp\'). Mô hình này vượt trội trong việc tạo ra hình ảnh chân thực như ảnh với ánh sáng tự nhiên, tông màu da chính xác và môi trường sống động. Hình ảnh tạo ra nhanh hơn ít nhất 2 lần so với các hệ thống trước đây.

3. Sử dụng MAI-Transcribe-1 để Chuyển giọng nói thành văn bản: Truy cập MAI-Transcribe-1 thông qua Microsoft Foundry, Azure Speech hoặc MAI Playground. Tải lên một tệp âm thanh (tối đa 10 MB trong Playground) hoặc ghi âm trực tiếp. Mô hình này hỗ trợ 25 ngôn ngữ và cung cấp bản ghi chính xác ngay cả trong môi trường ồn ào, thực tế. Nó xử lý phiên âm hàng loạt nhanh hơn 2,5 lần so với ưu đãi Azure Fast. Giá là 0,36 đô la cho mỗi giờ âm thanh.

4. Sử dụng MAI-Voice-1 để Tạo Giọng nói: Truy cập MAI-Voice-1 thông qua Microsoft Foundry. Mô hình này có thể tạo ra 60 giây âm thanh chỉ trong một giây. Để tạo giọng nói tùy chỉnh, chỉ cần cung cấp một vài giây mẫu âm thanh. Mô hình tạo ra giọng nói tự nhiên, biểu cảm với phạm vi cảm xúc và bảo tồn danh tính người nói trên nội dung dài. Giá bắt đầu từ 22 đô la cho mỗi triệu ký tự.

5. Quyền truy cập dành cho nhà phát triển thông qua Microsoft Foundry: Để truy cập API và sử dụng sản xuất, hãy đăng ký Microsoft Foundry. Điền vào biểu mẫu truy cập nếu bạn chưa có quyền truy cập Foundry. Sau khi được phê duyệt, bạn có thể tích hợp các mô hình MAI vào ứng dụng của mình với các biện pháp bảo vệ, quản trị và kiểm soát cấp doanh nghiệp tích hợp. Giá: MAI-Image-2 có giá 5 đô la cho mỗi triệu mã thông báo (đầu vào văn bản) và 33 đô la cho mỗi triệu mã thông báo (đầu ra hình ảnh).

6. Kiểm tra Mô hình trong MAI Playground: Truy cập playground.microsoft.ai để thử nghiệm các mô hình MAI mà không cần quyền truy cập Foundry đầy đủ. Kiểm tra MAI-Transcribe-1 bằng cách ghi hoặc tải lên các tệp âm thanh. Thử MAI-Image-2 với nhiều lời nhắc văn bản khác nhau. Cung cấp phản hồi về hiệu suất mô hình để giúp cải thiện các phiên bản trong tương lai.

7. Sử dụng Mô hình MAI trong Sản phẩm Microsoft: MAI-Transcribe-1 được tích hợp vào chế độ Thoại của Copilot và Microsoft Teams để ghi lại các cuộc trò chuyện. MAI-Image-2 đang được triển khai trong Bing, PowerPoint và Copilot. MAI-Image-1 có sẵn trong Bing Image Creator và có thể được sử dụng trong Chế độ Câu chuyện cho Biểu cảm Âm thanh. Chỉ cần sử dụng các sản phẩm này một cách bình thường và các mô hình MAI sẽ cung cấp năng lượng cho các tính năng AI đằng sau hậu trường.

8. Triển khai Doanh nghiệp và Sản xuất: Đối với các trường hợp sử dụng doanh nghiệp như phân tích trung tâm cuộc gọi, phiên âm cuộc họp, đại lý giọng nói, tạo nội dung hoặc tạo hình ảnh ở quy mô lớn, hãy liên hệ với Microsoft để được cấp quyền truy cập Foundry. Triển khai các mô hình trên đám mây hoặc tại chỗ tùy thuộc vào nhu cầu của bạn. Tận dụng các tính năng an toàn tích hợp, công cụ tuân thủ và kiểm soát quản trị để triển khai AI có trách nhiệm.

Câu hỏi Thường gặp về MAI

MAI là bộ phận AI của Microsoft được thành lập dưới sự lãnh đạo của Mustafa Suleyman (cựu đồng sáng lập Google DeepMind). Nhiệm vụ của bộ phận này là xây dựng \"Siêu trí tuệ Nhân văn\" - các hệ thống AI có khả năng nhất trên thế giới, vừa có năng lực cao vừa an toàn sâu sắc, với con người là trọng tâm của mọi quyết định. MAI hướng đến việc tạo ra siêu trí tuệ thiết thực, giải quyết các vấn đề thực tế đồng thời vẫn nằm dưới sự kiểm soát của con người.

Video MAI

Bài viết phổ biến

Atoms: Nền tảng AI đa tác nhân biến ý tưởng thành sản phẩm sẵn sàng ra mắt

May 22, 2026

Nano Banana SBTI: Nó là gì, Cách thức hoạt động và Cách sử dụng nó vào năm 2026

Apr 15, 2026

Đánh giá Atoms — Trình tạo sản phẩm AI định nghĩa lại việc tạo nội dung số vào năm 2026

Apr 10, 2026

Kilo Claw: Cách Triển Khai và Sử Dụng AI Agent "Làm-Thay-Bạn" Thực Sự (Cập Nhật 2026)

Apr 3, 2026

Công cụ AI Mới nhất Tương tự MAI

Gait

FreemiumAI Code Assistant AI Team Collaboration

Gait là một công cụ hợp tác tích hợp việc tạo mã hỗ trợ AI với kiểm soát phiên bản, cho phép các nhóm theo dõi, hiểu và chia sẻ bối cảnh mã do AI tạo ra một cách hiệu quả.

invoices.dev

PaidAI Code Assistant AI Developer Tools

invoices.dev là một nền tảng lập hóa đơn tự động tạo hóa đơn trực tiếp từ các cam kết Git của các nhà phát triển, với khả năng tích hợp cho các dịch vụ GitHub, Slack, Linear và Google.

EasyRFP

Contact for PricingAI Code Assistant AI Data Mining

EasyRFP là một bộ công cụ tính toán biên được hỗ trợ bởi AI giúp đơn giản hóa các phản hồi RFP (Yêu cầu đề xuất) và cho phép phân loại hình thái thực địa theo thời gian thực thông qua công nghệ học sâu.

Cart.ai

Contact for PricingAI Code Assistant AI Task Management

Cart.ai là một nền tảng dịch vụ dựa trên AI cung cấp các giải pháp tự động hóa doanh nghiệp toàn diện bao gồm lập trình, quản lý quan hệ khách hàng, chỉnh sửa video, thiết lập thương mại điện tử và phát triển AI tùy chỉnh với hỗ trợ 24/7.

Công cụ AI Phổ biến Giống MAI

GitHub Copilot Chat

PaidAI Code Assistant AI Code Generator AI Developer Tools

GitHub Copilot Chat là một trợ lý lập trình được hỗ trợ bởi AI cung cấp các tương tác bằng ngôn ngữ tự nhiên, các gợi ý mã theo thời gian thực, và hỗ trợ theo ngữ cảnh trực tiếp trong các IDE được hỗ trợ và GitHub.com.

CopilotForXcode

FreemiumAI Code Assistant AI Code Generator AI Code Refactoring

CopilotForXcode là một Tiện ích mở rộng Trình chỉnh sửa mã nguồn Xcode tích hợp GitHub Copilot, Codeium và ChatGPT để cung cấp các gợi ý mã được hỗ trợ bởi AI, hỗ trợ trò chuyện và chức năng từ prompt đến mã trong Xcode.

BrowserAI

FreeAI Browsers Builder AI Code Assistant

BrowserAI là một thư viện mã nguồn mở cho phép chạy các Mô hình Ngôn ngữ Lớn (LLM) cục bộ trực tiếp trong trình duyệt web với khả năng tăng tốc WebGPU, cung cấp các khả năng AI tập trung vào quyền riêng tư mà không cần cơ sở hạ tầng máy chủ.

OpenAI Codex CLI

FreeAI Code Assistant AI Code Generator

OpenAI Codex CLI là một coding agent mã nguồn mở, nhẹ, chạy trong terminal của bạn, cho phép các nhà phát triển dịch ngôn ngữ tự nhiên thành thực thi mã trong khi cung cấp khả năng suy luận ở cấp độ ChatGPT với khả năng chạy mã, thao tác tệp và lặp lại dưới sự kiểm soát phiên bản.

Xếp hạng

Đăng & Quảng báNew

MAI

Thông tin Sản phẩm

MAI là gì

Các Tính năng Chính của MAI

Các Trường hợp Sử dụng của MAI

Ưu điểm

Nhược điểm

Cách Sử dụng MAI

Câu hỏi Thường gặp về MAI

1. MAI là gì và nhiệm vụ của nó là gì?

2. MAI đã phát hành những mô hình nào?

3. Điều gì làm cho MAI-Transcribe-1 trở nên đặc biệt?

4. Các mô hình MAI có sẵn ở đâu?

5. MAI làm việc trên những sản phẩm tiêu dùng nào?

6. Chiến lược của MAI phù hợp với quan hệ đối tác OpenAI của Microsoft như thế nào?

7. \"Siêu trí tuệ Nhân văn\" là gì?

8. Ai lãnh đạo MAI và nó được thành lập khi nào?

Video MAI

Bài viết phổ biến

Công cụ AI Mới nhất Tương tự MAI

Công cụ AI Phổ biến Giống MAI