
MAI
MAI(Microsoft AI)는 이미지 생성, 음성 기록 및 음성 합성을 포함한 다중 모드 기반 모델을 개발하는 Microsoft의 사내 AI 연구 부서로, 인본주의적 초지능 원칙을 우선시하면서 세계 3대 AI 연구소 중 하나로 자리매김하고 있습니다.
https://microsoft.ai/?ref=producthunt&utm_source=aipure

제품 정보
업데이트됨:Apr 10, 2026
MAI이란?
Microsoft AI(MAI)는 2024년 3월에 설립되어 워싱턴 주 레드먼드에 본사를 둔 Microsoft의 인공 지능 연구소이자 사업부입니다. DeepMind와 Inflection AI의 공동 창립자인 CEO 무스타파 술레이만이 이끄는 MAI는 Copilot, Bing, Edge 및 GroupMe를 포함한 소비자 AI 제품을 감독합니다. 이 사업부는 2019년부터 OpenAI에 130억 달러를 투자했음에도 불구하고 Microsoft가 OpenAI 파트너십으로부터 더 큰 기술적 독립성을 확보하기 위해 설립되었습니다. 2025년 11월, MAI는 '인본주의적 초지능'을 구축하기 위한 사명을 가진 초지능 팀의 구성을 발표했습니다. 이는 인간의 가치에 부합하고 인간에게 확고하게 봉사하도록 설계된 고급 AI 시스템입니다. 이 사업부는 차세대 GB200 클러스터를 포함한 최첨단 규모의 컴퓨팅 인프라로 운영되며 AI 산업에서 경쟁력 있는 세력으로 빠르게 자리 잡았습니다.
MAI의 주요 기능
Microsoft AI(MAI)는 무스타파 슐레이만이 이끄는 Microsoft의 사내 AI 연구 부서로, 인간의 통제, 안전 및 실용적인 응용을 우선시하는 \'인본주의적 초지능\' - 고급 AI 시스템 개발에 중점을 두고 있습니다. 이 부서는 25개 언어에 걸쳐 음성-텍스트 변환을 위한 MAI-Transcribe-1, 사용자 지정 음성 복제 기능을 갖춘 자연스러운 음성 생성을 위한 MAI-Voice-1, 실사 이미지 생성을 위한 MAI-Image-2를 포함한 일련의 기본 멀티모달 AI 모델을 출시했습니다. 이러한 모델은 Microsoft Foundry를 통해 사용할 수 있으며 Copilot, Bing 및 Edge와 같은 소비자 제품을 지원합니다. MAI는 경쟁력 있는 가격(대안보다 약 50% 낮은 GPU 비용), 더 빠른 성능(Azure Fast보다 2.5배 빠른 전사) 및 엄격한 테스트 및 책임감 있는 AI 관행을 통한 엔터프라이즈급 안전성을 강조합니다.
MAI-Transcribe-1: 다국어 음성 인식: 엔터프라이즈급 정확도, Azure Fast보다 2.5배 빠른 일괄 처리, 배경 소음, 저품질 오디오 및 약 50% 낮은 GPU 비용으로 겹치는 음성을 포함한 실제 조건에 최적화된 25개 언어에 걸친 최첨단 음성-텍스트 전사.
MAI-Voice-1: 사용자 지정 음성 생성: 단 몇 초의 오디오(10초 샘플)만으로 사용자 지정 AI 음성을 생성할 수 있는 기능을 갖춘 자연스럽고 표현력이 풍부한 음성을 생성하는 차세대 음성 합성. 단일 GPU에서 1초 이내에 전체 1분 분량의 오디오를 생성하고 장편 콘텐츠에서 화자 ID를 보존합니다.
MAI-Image-2: 사실적인 이미지 생성: 자연스러운 조명, 정확한 피부톤, 실제와 같은 환경 및 신뢰할 수 있는 이미지 내 텍스트 생성을 통해 크리에이티브를 위해 구축된 Arena.ai 리더보드에서 3위를 차지한 고급 텍스트-이미지 모델. 엔터프라이즈 중심 라이선스 및 데이터 개인 정보 보호를 통해 이전 제품에 비해 2배 빠른 생성 시간을 제공합니다.
인본주의적 초지능 철학: 사람을 중심에 두고 사람들이 실제로 소통하는 방식을 최적화하고 실용적인 사용을 위해 훈련하는 AI 개발 접근 방식. 모든 단계에서 엄격한 안전 테스트 및 레드 팀 구성을 통해 AI를 제어 가능하고, 정렬되고, 인류를 위해 확고하게 서비스하도록 유지하는 것을 강조합니다.
Microsoft Foundry 통합: 데이터 암호화, 역할 기반 액세스 제어, 규정 준수 인증, 내장된 보호 장치 및 대규모 보안 AI 배포를 위한 거버넌스 기능을 포함한 엔터프라이즈급 보안으로 MAI 모델을 배포하고 관리하기 위한 통합 플랫폼.
경쟁력 있는 가격 및 성능: OpenAI 및 Google 제품과 경쟁하기 위해 공격적으로 가격이 책정된 모델 - 전사의 경우 시간당 $0.36, 음성의 경우 백만 문자당 $22, 이미지의 경우 백만 토큰당 $5-33 - Microsoft의 매출 원가를 줄이면서 우수한 성능을 제공하도록 설계되었습니다.
MAI의 사용 사례
글로벌 콜센터 분석: 25개 언어에 걸쳐 고객 서비스 통화의 실시간 전사를 위해 MAI-Transcribe-1을 배포하여 시끄러운 전화선과 다양한 억양을 처리하여 대안보다 50% 낮은 GPU 비용으로 자동화된 품질 모니터링, 감정 분석 및 규정 준수 추적을 가능하게 합니다.
음성 에이전트 개발: MAI-Voice-1과 MAI-Transcribe-1을 함께 사용하여 대화형 AI 에이전트를 구축하여 정밀하게 듣고 말할 수 있는 자연스러운 음성 경험을 만들어 고객 지원 봇, 가상 비서 및 사용자 지정 브랜드 음성을 갖춘 대화형 음성 응답 시스템을 가능하게 합니다.
창의적인 마케팅 콘텐츠 제작: MAI-Image-2를 사용하여 사실적인 마케팅 자료, 소셜 미디어 콘텐츠, 제품 시각화 및 정확한 텍스트 렌더링, 자연스러운 조명 및 다양한 표현으로 브랜드 커뮤니케이션을 생성하여 창의적인 팀의 후반 작업 시간을 줄입니다.
회의 및 컨퍼런스 전사: 회의실 및 가상 환경에서 엔터프라이즈 회의 전사를 위해 MAI-Transcribe-1을 구현하여 겹치는 음성, 배경 소음 및 여러 언어를 안정적으로 처리하여 글로벌 팀을 위한 검색 가능한 기록 및 자동화된 요약을 만듭니다.
의료 문서화: Microsoft의 보안 인프라를 통해 엔터프라이즈급 정확도와 의료 데이터 개인 정보 보호 표준 준수를 통해 의사-환자 상담, 의료 절차 및 임상 노트를 전사하기 위해 의료 환경에서 MAI-Transcribe-1을 적용합니다.
팟캐스트 및 미디어 제작: 자연스러운 표현력과 감정적 범위를 갖춘 AI 생성 팟캐스트 콘텐츠, 오디오북 내레이션 및 음성 해설을 만들기 위해 MAI-Voice-1을 활용하고, 여러 언어로 정확한 전사 및 자막 생성을 위해 MAI-Transcribe-1을 사용합니다.
장점
경쟁력 있거나 우수한 성능을 유지하면서 주요 대안에 비해 약 50% GPU 비용 절감으로 비용이 훨씬 저렴합니다.
Microsoft Foundry 및 기존 Microsoft 제품을 통한 원활한 통합으로 음성, 음성 및 이미지 생성을 포괄하는 포괄적인 멀티모달 제품군
엄격한 레드 팀 구성, 엔터프라이즈급 보안, 규정 준수 인증 및 적절하게 라이선스가 부여된 교육 데이터를 통해 책임감 있는 AI에 대한 강력한 강조로 법적 위험 감소
2.5배 더 빠른 전사와 1초 이내에 1분 분량의 오디오를 생성하는 기능을 포함한 뛰어난 속도 성능
단점
MAI-Image-2는 현재 Arena.ai 리더보드에서 5위(이전 3위)로, Google의 Nano Banana 2 및 OpenAI의 GPT-Image 1.5와 같은 경쟁업체에 뒤쳐져 성능 격차를 나타냅니다.
MAI-1-Preview는 아직 공개적으로 액세스할 수 없으며 일부 모델은 Foundry를 통해 액세스하려면 승인 프로세스가 필요한 제한된 모델 가용성
Microsoft가 OpenAI 모델, MAI 모델 및 제품 라인 전반에 걸쳐 다양한 기타 AI 기능을 제공하여 어떤 것을 사용해야 하는지에 대한 명확한 지침 없이 개발자를 위한 잠재적인 전략 혼란
비교적 새로운 부서(2025년 11월에 설립)로 모델이 6개월밖에 되지 않아 OpenAI 및 Google의 기존 대안에 비해 생산에서 덜 검증되었습니다.
MAI 사용 방법
1. Microsoft 플랫폼을 통해 MAI 모델에 액세스: MAI 모델은 여러 Microsoft 플랫폼을 통해 사용할 수 있습니다. Microsoft Foundry(개발자 및 기업용), MAI Playground(테스트 및 실험용), Copilot, Bing Image Creator, Microsoft Teams 및 기타 Microsoft 제품입니다.
2. 이미지 생성을 위해 MAI-Image-2 사용: Copilot 또는 Bing Image Creator를 통해 MAI-Image-2에 액세스합니다. Bing Image Creator에서 MAI-Image-2, DALL-E 3 또는 GPT-4o 중에서 선택할 수 있습니다. 원하는 이미지를 설명하는 텍스트 프롬프트를 입력합니다(예: '성당 내부처럼 솟아오른 빙하 벽, 깊고 푸른 얼음과 층을 통해 굴절되는 빛'). 이 모델은 자연스러운 조명, 정확한 피부톤 및 실제와 같은 환경을 갖춘 실사적인 이미지에 탁월합니다. 이미지는 이전 시스템보다 최소 2배 더 빠르게 생성됩니다.
3. 음성-텍스트 변환을 위해 MAI-Transcribe-1 사용: Microsoft Foundry, Azure Speech 또는 MAI Playground를 통해 MAI-Transcribe-1에 액세스합니다. 오디오 파일(Playground에서 최대 10MB)을 업로드하거나 오디오를 직접 녹음합니다. 이 모델은 25개 언어를 지원하며 시끄러운 실제 환경에서도 정확한 전사를 제공합니다. Azure Fast 제품보다 2.5배 더 빠르게 일괄 전사를 처리합니다. 가격은 오디오 시간당 0.36달러입니다.
4. 음성 생성을 위해 MAI-Voice-1 사용: Microsoft Foundry를 통해 MAI-Voice-1에 액세스합니다. 이 모델은 단 1초 만에 60초 분량의 오디오를 생성할 수 있습니다. 사용자 지정 음성을 만들려면 몇 초 분량의 오디오 샘플만 제공하면 됩니다. 이 모델은 감정 범위가 있는 자연스럽고 표현력이 풍부한 음성을 생성하고 장문 콘텐츠에서 화자 ID를 보존합니다. 가격은 백만 문자당 22달러부터 시작합니다.
5. Microsoft Foundry를 통한 개발자 액세스: API 액세스 및 프로덕션 사용을 위해 Microsoft Foundry에 가입합니다. 아직 Foundry 액세스 권한이 없는 경우 액세스 양식을 작성하십시오. 승인되면 기본 제공 보호 장치, 거버넌스 및 엔터프라이즈급 제어를 통해 MAI 모델을 애플리케이션에 통합할 수 있습니다. 가격: MAI-Image-2는 백만 토큰당 5달러(텍스트 입력) 및 백만 토큰당 33달러(이미지 출력)입니다.
6. MAI Playground에서 모델 테스트: 전체 Foundry 액세스 권한 없이 MAI 모델을 실험하려면 playground.microsoft.ai를 방문하십시오. 오디오 파일을 녹음하거나 업로드하여 MAI-Transcribe-1을 테스트합니다. 다양한 텍스트 프롬프트로 MAI-Image-2를 사용해 보십시오. 모델 성능에 대한 피드백을 제공하여 향후 버전을 개선하는 데 도움을 주십시오.
7. Microsoft 제품에서 MAI 모델 사용: MAI-Transcribe-1은 Copilot의 음성 모드와 대화 기록을 위한 Microsoft Teams에 통합되어 있습니다. MAI-Image-2는 Bing, PowerPoint 및 Copilot에서 출시되고 있습니다. MAI-Image-1은 Bing Image Creator에서 사용할 수 있으며 오디오 표현을 위한 스토리 모드에서 사용할 수 있습니다. 이러한 제품을 정상적으로 사용하기만 하면 MAI 모델이 백그라운드에서 AI 기능을 지원합니다.
8. 엔터프라이즈 및 프로덕션 배포: 콜센터 분석, 회의 기록, 음성 에이전트, 콘텐츠 제작 또는 대규모 이미지 생성과 같은 엔터프라이즈 사용 사례의 경우 Microsoft에 Foundry 액세스를 문의하십시오. 필요에 따라 클라우드 또는 온프레미스에 모델을 배포합니다. 책임감 있는 AI 배포를 위해 기본 제공 안전 기능, 규정 준수 도구 및 거버넌스 제어를 활용하십시오.
MAI 자주 묻는 질문
MAI는 무스타파 슐레이만(전 Google DeepMind 공동 창업자)이 설립한 Microsoft의 AI 부문입니다. 그 사명은 '인본주의적 초지능'을 구축하는 것입니다. 이는 세계에서 가장 유능한 AI 시스템으로, 매우 유능하고 매우 안전하며 모든 결정의 중심에 인류를 두는 것입니다. MAI는 인간의 통제하에 있으면서 실제 문제를 해결하는 실용적인 초지능을 만드는 것을 목표로 합니다.











