MAI (Microsoft AI) é a divisão interna de pesquisa de IA da Microsoft que desenvolve modelos fundamentais multimodais, incluindo geração de imagens, transcrição de fala e síntese de voz, classificada entre os três principais laboratórios de IA globalmente, priorizando os princípios da superinteligência humanista.
https://microsoft.ai/?ref=producthunt&utm_source=aipure
MAI

Informações do Produto

Atualizado:Apr 10, 2026

O que é MAI

Microsoft AI (MAI) é um laboratório de pesquisa em inteligência artificial e divisão da Microsoft, fundado em março de 2024 e com sede em Redmond, Washington. Liderada pelo CEO Mustafa Suleyman, ex-cofundador da DeepMind e da Inflection AI, a MAI supervisiona produtos de IA para o consumidor, incluindo Copilot, Bing, Edge e GroupMe. A divisão foi estabelecida para dar à Microsoft maior independência tecnológica de sua parceria com a OpenAI, apesar do investimento de US$ 13 bilhões da empresa na OpenAI desde 2019. Em novembro de 2025, a MAI anunciou a formação de uma equipe de Superinteligência com a missão de construir 'Superinteligência Humanista' — sistemas avançados de IA projetados para permanecerem controláveis, alinhados com os valores humanos e firmemente a serviço da humanidade. A divisão opera com infraestrutura de computação de escala de fronteira, incluindo clusters GB200 de última geração, e rapidamente se estabeleceu como uma força competitiva na indústria de IA.

Principais Recursos do MAI

A Microsoft AI (MAI) é a divisão interna de pesquisa de IA da Microsoft liderada por Mustafa Suleyman, focada no desenvolvimento de 'Superinteligência Humanista' - sistemas avançados de IA que priorizam o controle humano, a segurança e as aplicações práticas. A divisão lançou um conjunto de modelos multimodais fundamentais, incluindo o MAI-Transcribe-1 para transcrição de fala em texto em 25 idiomas, o MAI-Voice-1 para geração de voz natural com capacidades de clonagem de voz personalizadas e o MAI-Image-2 para geração de imagens fotorrealistas. Esses modelos estão disponíveis através do Microsoft Foundry e impulsionam produtos de consumo como o Copilot, o Bing e o Edge. A MAI enfatiza preços competitivos (aproximadamente 50% menores custos de GPU do que as alternativas), desempenho mais rápido (2,5 vezes mais rápido que o Azure Fast para transcrição) e segurança de nível empresarial com testes rigorosos e práticas responsáveis de IA.
MAI-Transcribe-1: Reconhecimento de Fala Multilíngue: Transcrição de fala em texto de última geração em 25 idiomas com precisão de nível empresarial, processamento em lote 2,5 vezes mais rápido que o Azure Fast e otimizado para condições do mundo real, incluindo ruído de fundo, áudio de baixa qualidade e sobreposição de fala com custo de GPU aproximadamente 50% menor.
MAI-Voice-1: Geração de Voz Personalizada: Síntese de voz de última geração produzindo fala natural e expressiva com a capacidade de criar vozes de IA personalizadas a partir de apenas alguns segundos de áudio (amostras de 10 segundos). Gera um minuto inteiro de áudio em menos de um segundo em uma única GPU com identidade de locutor preservada em conteúdo de formato longo.
MAI-Image-2: Criação de Imagem Fotorrealista: Modelo avançado de texto para imagem classificado em 3º lugar no ranking Arena.ai, construído para criativos com iluminação natural, tons de pele precisos, ambientes habitados e geração de texto confiável na imagem. Oferece tempos de geração 2 vezes mais rápidos em comparação com o antecessor com licenciamento focado em empresas e privacidade de dados.
Filosofia de Superinteligência Humanista: Abordagem de desenvolvimento de IA que coloca os humanos no centro, otimizando para como as pessoas realmente se comunicam e treinando para uso prático. Enfatiza manter a IA controlável, alinhada e firmemente a serviço da humanidade com testes de segurança rigorosos e red-teaming em cada etapa.
Integração com o Microsoft Foundry: Plataforma unificada para implantar e gerenciar modelos MAI com segurança de nível empresarial, incluindo criptografia de dados, controles de acesso baseados em função, certificações de conformidade, proteções integradas e recursos de governança para implantação segura de IA em escala.
Preços e Desempenho Competitivos: Modelos com preços agressivos para competir com as ofertas da OpenAI e do Google - US$ 0,36/hora para transcrição, US$ 22 por milhão de caracteres para voz, US$ 5-33 por milhão de tokens para imagens - projetados para reduzir o custo de produtos vendidos da Microsoft, oferecendo desempenho superior.

Casos de Uso do MAI

Análise Global de Call Center: Implante o MAI-Transcribe-1 para transcrição em tempo real de chamadas de atendimento ao cliente em 25 idiomas, lidando com linhas telefônicas ruidosas e vários sotaques para permitir o monitoramento automatizado da qualidade, a análise de sentimentos e o rastreamento de conformidade com custos de GPU 50% menores do que as alternativas.
Desenvolvimento de Agentes de Voz: Crie agentes de IA conversacionais usando MAI-Voice-1 e MAI-Transcribe-1 juntos para criar experiências de voz naturais que podem ouvir e falar com precisão, permitindo bots de suporte ao cliente, assistentes virtuais e sistemas de resposta de voz interativa com vozes de marca personalizadas.
Produção de Conteúdo de Marketing Criativo: Use o MAI-Image-2 para gerar materiais de marketing fotorrealistas, conteúdo de mídia social, visualizações de produtos e comunicações de marca com renderização de texto precisa, iluminação natural e representação diversificada, reduzindo o tempo de pós-produção para equipes criativas.
Transcrição de Reuniões e Conferências: Implemente o MAI-Transcribe-1 para transcrição de reuniões empresariais em salas de conferência e ambientes virtuais, lidando de forma confiável com sobreposição de fala, ruído de fundo e vários idiomas para criar registros pesquisáveis e resumos automatizados para equipes globais.
Documentação de Saúde: Aplique o MAI-Transcribe-1 em ambientes médicos para transcrever consultas médico-paciente, procedimentos médicos e notas clínicas em vários idiomas com precisão de nível empresarial e conformidade com os padrões de privacidade de dados de saúde através da infraestrutura segura da Microsoft.
Produção de Podcast e Mídia: Aproveite o MAI-Voice-1 para criar conteúdo de podcast gerado por IA, narração de audiolivros e locuções com expressividade natural e alcance emocional, enquanto usa o MAI-Transcribe-1 para transcrição precisa e geração de legendas em vários idiomas.

Vantagens

Custos significativamente menores com aproximadamente 50% de redução de custo de GPU em comparação com as principais alternativas, mantendo um desempenho competitivo ou superior
Suíte multimodal abrangente cobrindo geração de fala, voz e imagem com integração perfeita através do Microsoft Foundry e produtos Microsoft existentes
Forte ênfase na IA responsável com red-teaming rigoroso, segurança de nível empresarial, certificações de conformidade e dados de treinamento devidamente licenciados, reduzindo os riscos legais
Desempenho de velocidade excepcional, incluindo transcrição 2,5 vezes mais rápida e capacidade de gerar um minuto de áudio em menos de um segundo

Desvantagens

O MAI-Image-2 está atualmente classificado em 5º lugar no ranking Arena.ai (anteriormente em 3º), atrás de concorrentes como o Nano Banana 2 do Google e o GPT-Image 1.5 da OpenAI, indicando lacunas de desempenho
Disponibilidade limitada de modelos com o MAI-1-Preview ainda não acessível publicamente e alguns modelos exigindo processos de aprovação para acesso através do Foundry
Potencial confusão de estratégia para desenvolvedores com a Microsoft oferecendo modelos OpenAI, modelos MAI e vários outros recursos de IA em todas as linhas de produtos sem orientação clara sobre qual usar
Divisão relativamente nova (formada em novembro de 2025) com modelos com apenas seis meses de idade, o que significa menos testados em produção em comparação com alternativas estabelecidas da OpenAI e do Google

Como Usar o MAI

1. Acesse os modelos MAI por meio das plataformas Microsoft: Os modelos MAI estão disponíveis por meio de várias plataformas Microsoft: Microsoft Foundry (para desenvolvedores e empresas), MAI Playground (para testes e experimentação), Copilot, Bing Image Creator, Microsoft Teams e outros produtos Microsoft.
2. Usando MAI-Image-2 para geração de imagens: Acesse MAI-Image-2 por meio do Copilot ou Bing Image Creator. No Bing Image Creator, você pode escolher entre MAI-Image-2, DALL-E 3 ou GPT-4o. Insira seu prompt de texto descrevendo a imagem que você deseja (por exemplo, 'Uma parede de geleira imponente como o interior de uma catedral, gelo azul profundo com luz refratando através das camadas'). O modelo se destaca em imagens fotorrealistas com iluminação natural, tons de pele precisos e ambientes habitados. As imagens são geradas pelo menos 2 vezes mais rápido do que os sistemas anteriores.
3. Usando MAI-Transcribe-1 para conversão de fala em texto: Acesse MAI-Transcribe-1 por meio do Microsoft Foundry, Azure Speech ou MAI Playground. Carregue um arquivo de áudio (até 10 MB no Playground) ou grave áudio diretamente. O modelo suporta 25 idiomas e oferece transcrição precisa, mesmo em ambientes barulhentos do mundo real. Ele processa a transcrição em lote 2,5 vezes mais rápido do que a oferta Azure Fast. O preço é de US$ 0,36 por hora de áudio.
4. Usando MAI-Voice-1 para geração de voz: Acesse MAI-Voice-1 por meio do Microsoft Foundry. O modelo pode gerar 60 segundos de áudio em apenas um segundo. Para criar uma voz personalizada, forneça apenas alguns segundos de amostra de áudio. O modelo produz fala natural e expressiva com alcance emocional e preserva a identidade do falante em conteúdo de formato longo. O preço começa em US$ 22 por milhão de caracteres.
5. Acesso de desenvolvedor via Microsoft Foundry: Para acesso à API e uso em produção, inscreva-se no Microsoft Foundry. Preencha o formulário de acesso se você ainda não tiver acesso ao Foundry. Depois de aprovado, você pode integrar os modelos MAI em seus aplicativos com proteções, governança e controles de nível empresarial integrados. Preços: MAI-Image-2 custa US$ 5 por milhão de tokens (entrada de texto) e US$ 33 por milhão de tokens (saída de imagem).
6. Testando modelos no MAI Playground: Visite playground.microsoft.ai para experimentar os modelos MAI sem exigir acesso total ao Foundry. Teste MAI-Transcribe-1 gravando ou carregando arquivos de áudio. Experimente MAI-Image-2 com vários prompts de texto. Forneça feedback sobre o desempenho do modelo para ajudar a melhorar as versões futuras.
7. Usando modelos MAI em produtos Microsoft: MAI-Transcribe-1 está integrado ao modo de voz do Copilot e ao Microsoft Teams para transcrições de conversas. MAI-Image-2 está sendo lançado no Bing, PowerPoint e Copilot. MAI-Image-1 está disponível no Bing Image Creator e pode ser usado no Story Mode para Audio Expressions. Basta usar esses produtos normalmente e os modelos MAI alimentam os recursos de IA nos bastidores.
8. Implantação empresarial e de produção: Para casos de uso empresarial, como análise de call center, transcrição de reuniões, agentes de voz, criação de conteúdo ou geração de imagens em escala, entre em contato com a Microsoft para obter acesso ao Foundry. Implante modelos na nuvem ou no local, dependendo de suas necessidades. Aproveite os recursos de segurança integrados, as ferramentas de conformidade e os controles de governança para uma implantação de IA responsável.

Perguntas Frequentes do MAI

MAI é a divisão de IA da Microsoft formada sob Mustafa Suleyman (ex-cofundador do Google DeepMind). Sua missão é construir a 'Superinteligência Humanista' - os sistemas de IA mais capazes do mundo que são altamente capazes e profundamente seguros, com a humanidade no centro de cada decisão. A MAI visa criar uma superinteligência prática que resolva problemas reais, permanecendo sob controle humano.

Ferramentas de IA Mais Recentes Semelhantes a MAI

Gait
Gait
O Gait é uma ferramenta de colaboração que integra a geração de código assistida por IA com controle de versão, permitindo que as equipes rastreiem, entendam e compartilhem o contexto do código gerado por IA de forma eficiente.
invoices.dev
invoices.dev
invoices.dev é uma plataforma de faturamento automatizada que gera faturas diretamente dos commits do Git dos desenvolvedores, com capacidades de integração para GitHub, Slack, Linear e serviços do Google.
EasyRFP
EasyRFP
EasyRFP é um kit de ferramentas de computação de borda alimentado por IA que agiliza as respostas a RFP (Pedido de Proposta) e possibilita fenotipagem de campo em tempo real por meio de tecnologia de aprendizado profundo.
Cart.ai
Cart.ai
O Cart.ai é uma plataforma de serviços impulsionada por IA que fornece soluções abrangentes de automação de negócios, incluindo codificação, gerenciamento de relações com clientes, edição de vídeo, configuração de e-commerce e desenvolvimento de IA personalizado com suporte 24/7.