MAIはどのようなモデルをリリースしましたか？

MAIは、3つの基盤モデルをリリースしました。MAI-Transcribe-1（25言語をサポートする多言語音声テキスト変換モデル）、MAI-Voice-1（自然で表現力豊かな音声を実現する次世代音声モデル）、MAI-Image-2（画像生成モデル）です。また、最初のエンドツーエンドの基盤モデルであるMAI-1-Previewもありますが、現在利用できません。

MAI-Transcribe-1の何が特別なのですか？

MAI-Transcribe-1は、25言語で世界で最も正確な文字起こしモデルであるとされています。特に、困難な録音条件のために構築されており、バックグラウンドノイズ、低品質のオーディオ録音、重複する音声に確実に対応します。これにより、音声エージェント、会議の文字起こし、コールセンター分析などの本番環境でのユースケースに最適です。

MAIモデルはどこで利用できますか？

MAIモデルは、Microsoft Foundryで利用できます。モデルには、playground.microsoft.ai/chatのMAI Playgroundからもアクセスできます。

MAIはどのような消費者向け製品に取り組んでいますか？

MAIの主要な消費者向けAI製品には、Copilot、Bing、GroupMe、Edge、MSNなどがあります。この部門には、データ、セキュリティ、プライバシー、収益化、ヘルス、責任あるAI、コマース、Microsoft Advertisingに取り組むチームもあります。

MAIの戦略は、マイクロソフトのOpenAIとの提携とどのように適合しますか？

MAIは、マイクロソフトがOpenAIとの提携から独立し、独自のAIスタックを所有するための動きを意味します。同社は現在、Azure OpenAI Serviceを通じてOpenAIモデルを提供するとともに、独自のMAI基盤モデルを提供しており、エンタープライズ顧客は、特にライセンス、データプライバシー、カスタマイズに関して、AIツールをより細かく制御できます。

「ヒューマニスト超知能」とは何ですか？

ヒューマニスト超知能は、制御可能で、整合性があり、人類への奉仕をしっかりと行うように設計された高度なAIに対するMAIのビジョンです。人間の能力を凌駕するのではなく、それを増幅し、人々が想像し、達成できることを拡大することです。このアプローチでは、人間が制御を維持し、アーキテクチャに整合性を組み込み、あらゆる段階で安全性をストレステストし、現実世界への影響を優先することを重視しています。

MAIは誰が率いており、いつ設立されましたか？

MAIは、Google DeepMindの元共同創業者であるCEOのムスタファ・スレイマンが率いています。この部門は10月に設立され（モデルリリースの6か月前）、比較的新しい組織ですが、マイクロソフト内で急速に生産性を高めています。

MAI

WebsiteFree TrialAI Code Assistant AI Developer Tools

MAI（Microsoft AI）は、画像生成、音声文字起こし、音声合成などのマルチモーダル基盤モデルを開発するMicrosoftの社内AI研究部門であり、ヒューマニスト超知能の原則を優先しながら、世界トップ3のAI研究所にランクインしています。

ウェブサイトを訪問

このツールを宣伝する

https://microsoft.ai/?ref=producthunt&utm_source=aipure

概要
動画
代替案

製品情報

更新日:2026年04月10日

MAIとは

Microsoft AI（MAI）は、2024年3月に設立され、ワシントン州レドモンドに本社を置く、Microsoftの人工知能研究所および部門です。DeepMindおよびInflection AIの元共同創設者であるCEOのムスタファ・スレイマンが率いるMAIは、Copilot、Bing、Edge、GroupMeなどの消費者向けAI製品を監督しています。この部門は、2019年以降のOpenAIへの130億ドルの投資にもかかわらず、MicrosoftにOpenAIとのパートナーシップからのより大きな技術的独立性を提供するために設立されました。2025年11月、MAIは「ヒューマニスト超知能」を構築するという使命を掲げた超知能チームの結成を発表しました。これは、制御可能であり、人間の価値観に沿い、人類への奉仕をしっかりと行うように設計された高度なAIシステムです。この部門は、次世代GB200クラスターを含むフロンティアスケールのコンピューティングインフラストラクチャで運営されており、AI業界で競争力のある勢力としての地位を確立しています。

MAIの主な機能

Microsoft AI (MAI)は、ムスタファ・スレイマンが率いるマイクロソフトの社内AI研究部門で、「ヒューマニスト超知能」の開発に注力しています。これは、人間の制御、安全性、実用的な応用を優先する高度なAIシステムです。この部門は、25言語に対応した音声テキスト変換のMAI-Transcribe-1、カスタム音声クローン機能による自然な音声生成のMAI-Voice-1、フォトリアリスティックな画像生成のMAI-Image-2など、一連の基盤となるマルチモーダルAIモデルをリリースしました。これらのモデルはMicrosoft Foundryを通じて利用可能であり、Copilot、Bing、Edgeなどの消費者向け製品を強化しています。MAIは、競争力のある価格設定（代替手段よりも約50％低いGPUコスト）、より高速なパフォーマンス（Azure Fastよりも転写で2.5倍高速）、厳格なテストと責任あるAIプラクティスによるエンタープライズグレードの安全性を重視しています。

MAI-Transcribe-1：多言語音声認識: エンタープライズグレードの精度、Azure Fastよりも2.5倍高速なバッチ処理、およびバックグラウンドノイズ、低品質オーディオ、重複するスピーチなどの実際の条件に最適化された、25言語にわたる最先端の音声テキスト変換を、約50％低いGPUコストで実現します。

MAI-Voice-1：カスタム音声生成: 次世代の音声合成により、自然で表現力豊かなスピーチを生成し、わずか数秒のオーディオ（10秒のサンプル）からカスタムAI音声を作成できます。単一のGPUで1秒未満で1分間のオーディオを生成し、長編コンテンツ全体で話者のアイデンティティを保持します。

MAI-Image-2：フォトリアリスティックな画像作成: Arena.aiのリーダーボードで3位にランクインした高度なテキストから画像へのモデルで、自然な照明、正確な肌の色、生活感のある環境、信頼性の高い画像内テキスト生成を備えたクリエイター向けに構築されています。前身と比較して2倍高速な生成時間を提供し、エンタープライズに焦点を当てたライセンスとデータプライバシーを提供します。

ヒューマニスト超知能哲学: 人間を中心としたAI開発アプローチで、人々が実際にどのようにコミュニケーションするかを最適化し、実用的な使用のためにトレーニングします。AIを制御可能、整合性があり、厳格な安全テストとすべての段階でのレッドチーム活動により、人類への奉仕にしっかりと維持することを重視しています。

Microsoft Foundry統合: データ暗号化、ロールベースのアクセス制御、コンプライアンス認証、組み込みのガードレール、および大規模な安全なAI展開のためのガバナンス機能を含む、エンタープライズグレードのセキュリティを備えたMAIモデルの展開と管理のための統合プラットフォームです。

競争力のある価格設定とパフォーマンス: OpenAIおよびGoogleの製品と競合するように積極的に価格設定されたモデル - 転写の場合は1時間あたり0.36ドル、音声の場合は100万文字あたり22ドル、画像の場合は100万トークンあたり5〜33ドル - Microsoftの売上原価を削減しながら、優れたパフォーマンスを提供するように設計されています。

MAIのユースケース

グローバルコールセンター分析: MAI-Transcribe-1を導入して、25言語にわたるカスタマーサービスコールのリアルタイム転写を実現し、ノイズの多い電話回線やさまざまなアクセントに対応して、自動化された品質監視、センチメント分析、コンプライアンス追跡を、代替手段よりも50％低いGPUコストで実現します。

音声エージェント開発: MAI-Voice-1とMAI-Transcribe-1を組み合わせて使用して、会話型AIエージェントを構築し、正確に聞き取り、話すことができる自然な音声体験を作成し、カスタムブランドの音声によるカスタマーサポートボット、バーチャルアシスタント、インタラクティブ音声応答システムを実現します。

クリエイティブマーケティングコンテンツ制作: MAI-Image-2を使用して、フォトリアリスティックなマーケティング資料、ソーシャルメディアコンテンツ、製品の視覚化、ブランドコミュニケーションを生成し、正確なテキストレンダリング、自然な照明、多様な表現を実現し、クリエイティブチームのポストプロダクション時間を短縮します。

会議およびカンファレンスの転写: MAI-Transcribe-1を会議室や仮想環境でのエンタープライズ会議の転写に実装し、重複するスピーチ、バックグラウンドノイズ、複数の言語を確実に処理して、グローバルチーム向けの検索可能な記録と自動化された要約を作成します。

ヘルスケアドキュメンテーション: 医療現場でMAI-Transcribe-1を適用して、医師と患者の相談、医療処置、臨床ノートを言語間で転写し、エンタープライズグレードの精度と、マイクロソフトの安全なインフラストラクチャを通じて医療データプライバシー基準への準拠を実現します。

ポッドキャストおよびメディア制作: MAI-Voice-1を活用して、AI生成のポッドキャストコンテンツ、オーディオブックのナレーション、ボイスオーバーを自然な表現力と感情の幅で作成し、MAI-Transcribe-1を使用して、複数の言語で正確な転写と字幕生成を行います。

メリット

競争力のあるまたは優れたパフォーマンスを維持しながら、主要な代替手段と比較して約50％のGPUコスト削減により、大幅に低いコスト

Microsoft Foundryおよび既存のMicrosoft製品とのシームレスな統合による、音声、音声、画像生成をカバーする包括的なマルチモーダルスイート

厳格なレッドチーム活動、エンタープライズグレードのセキュリティ、コンプライアンス認証、および適切にライセンスされたトレーニングデータによる責任あるAIの重視により、法的リスクを軽減します

2.5倍高速な転写や1秒未満で1分間のオーディオを生成する機能など、卓越した速度パフォーマンス

デメリット

MAI-Image-2は現在、Arena.aiのリーダーボードで5位にランクインしており（以前は3位）、GoogleのNano Banana 2やOpenAIのGPT-Image 1.5などの競合他社に遅れをとっており、パフォーマンスのギャップを示しています

MAI-1-Previewはまだ一般公開されておらず、一部のモデルではFoundryを通じてアクセスするための承認プロセスが必要なため、モデルの可用性が限られています

MicrosoftがOpenAIモデル、MAIモデル、および製品ライン全体でさまざまなAI機能を提供しており、どれを使用するかについての明確なガイダンスがないため、開発者にとって戦略の混乱の可能性があります

比較的新しい部門（2025年11月に設立）であり、モデルはわずか6か月であるため、OpenAIやGoogleの確立された代替手段と比較して、本番環境でのテストが少なくなっています

MAIの使い方

1. Microsoftプラットフォームを介したMAIモデルへのアクセス: MAIモデルは、複数のMicrosoftプラットフォームを通じて利用できます。Microsoft Foundry（開発者および企業向け）、MAI Playground（テストおよび実験用）、Copilot、Bing Image Creator、Microsoft Teams、およびその他のMicrosoft製品です。

2. 画像生成にMAI-Image-2を使用する: CopilotまたはBing Image Creatorを介してMAI-Image-2にアクセスします。Bing Image Creatorでは、MAI-Image-2、DALL-E 3、またはGPT-4oを選択できます。（例：「大聖堂の内部のようにそびえ立つ氷河の壁、深青色の氷が層を通して光を屈折させている」など）必要な画像を説明するテキストプロンプトを入力します。このモデルは、自然な照明、正確な肌のトーン、そして生活感のある環境を備えたフォトリアリスティックな画像に優れています。画像は、以前のシステムよりも少なくとも2倍速く生成されます。

3. 音声テキスト変換にMAI-Transcribe-1を使用する: Microsoft Foundry、Azure Speech、またはMAI Playgroundを介してMAI-Transcribe-1にアクセスします。（Playgroundでは最大10 MB）オーディオファイルをアップロードするか、オーディオを直接録音します。このモデルは25言語をサポートしており、騒がしい現実世界の環境でも正確な文字起こしを提供します。Azure Fastオファリングよりも2.5倍高速にバッチ文字起こしを処理します。価格はオーディオ1時間あたり0.36ドルです。

4. 音声生成にMAI-Voice-1を使用する: Microsoft Foundryを介してMAI-Voice-1にアクセスします。このモデルは、わずか1秒で60秒のオーディオを生成できます。カスタム音声を作成するには、わずか数秒のオーディオサンプルを提供します。このモデルは、感情的な範囲を備えた自然で表現力豊かなスピーチを生成し、長文コンテンツ全体で話者のアイデンティティを保持します。価格は100万文字あたり22ドルから。

5. Microsoft Foundry経由の開発者アクセス: APIアクセスと本番環境での使用については、Microsoft Foundryにサインアップしてください。まだFoundryアクセスがない場合は、アクセスフォームに記入してください。承認されると、組み込みのガードレール、ガバナンス、およびエンタープライズグレードのコントロールを使用して、MAIモデルをアプリケーションに統合できます。価格：MAI-Image-2のコストは、100万トークン（テキスト入力）あたり5ドル、100万トークン（画像出力）あたり33ドルです。

6. MAI Playgroundでのモデルのテスト: playground.microsoft.aiにアクセスして、完全なFoundryアクセスを必要とせずにMAIモデルを試してください。オーディオファイルを録音またはアップロードして、MAI-Transcribe-1をテストします。さまざまなテキストプロンプトでMAI-Image-2を試してください。モデルのパフォーマンスに関するフィードバックを提供して、将来のバージョンの改善に役立ててください。

7. Microsoft製品でのMAIモデルの使用: MAI-Transcribe-1は、Copilotの音声モードとMicrosoft Teamsに統合され、会話のトランスクリプトを作成します。MAI-Image-2は、Bing、PowerPoint、およびCopilotで展開されています。MAI-Image-1は、Bing Image Creatorで利用でき、オーディオ表現のストーリーモードで使用できます。これらの製品を通常どおりに使用するだけで、MAIモデルが舞台裏でAI機能を強化します。

8. エンタープライズおよび本番環境への展開: コールセンターの分析、会議の文字起こし、音声エージェント、コンテンツ作成、または大規模な画像生成などのエンタープライズユースケースについては、Microsoftに連絡してFoundryアクセスを依頼してください。ニーズに応じて、クラウドまたはオンプレミスでモデルを展開します。責任あるAI展開のために、組み込みの安全機能、コンプライアンスツール、およびガバナンスコントロールを活用してください。

MAIのよくある質問

MAIは、ムスタファ・スレイマン（元Google DeepMind共同創業者）の下で設立されたマイクロソフトのAI部門です。その使命は、「ヒューマニスト超知能」を構築することです。これは、高度な能力と深い安全性を兼ね備え、あらゆる決定の中心に人類を据えた、世界で最も有能なAIシステムです。MAIは、人間の制御下にとどまりながら、現実の問題に対処する実用的な超知能の創造を目指しています。

MAIの動画

MAIに類似した最新のAIツール

Gait

FreemiumAI Code Assistant AI Team Collaboration

Gaitは、AI支援コード生成とバージョン管理を統合するコラボレーションツールであり、チームがAI生成コードのコンテキストを効率的に追跡、理解、共有できるようにします

invoices.dev

PaidAI Code Assistant AI Developer Tools

invoices.devは、開発者のGitコミットから直接請求書を生成する自動請求プラットフォームで、GitHub、Slack、Linear、Googleサービスとの統合機能を備えています。

EasyRFP

Contact for PricingAI Code Assistant AI Data Mining

EasyRFPは、RFP（提案依頼）の応答を効率化し、深層学習技術を通じてリアルタイムのフィールド表現型を可能にするAI駆動のエッジコンピューティングツールキットです

Cart.ai

Contact for PricingAI Code Assistant AI Task Management

Cart.aiは、コーディング、顧客関係管理、ビデオ編集、eコマースの設定、カスタムAI開発を含む包括的なビジネス自動化ソリューションを提供するAI駆動のサービスプラットフォームで、24時間365日のサポートがあります

MAIに似た人気のAIツール

GitHub Copilot Chat

PaidAI Code Assistant AI Code Generator AI Developer Tools

GitHub Copilot Chatは、自然言語の対話、リアルタイムのコード提案、そしてサポートされているIDEおよびGitHub.com内での文脈に応じた支援を提供するAI駆動のコーディングアシスタントです

CopilotForXcode

FreemiumAI Code Assistant AI Code Generator AI Code Refactoring

CopilotForXcodeは、Xcode内でAI駆動のコード提案、チャット支援、プロンプトからコードへの機能を提供するXcodeソースエディタ拡張機能です。

BrowserAI

FreeAI Browsers Builder AI Code Assistant

BrowserAI is an open-source library that enables running local Large Language Models (LLMs) directly in web browsers with WebGPU acceleration, offering privacy-focused AI capabilities without requiring server infrastructure.

OpenAI Codex CLI

FreeAI Code Assistant AI Code Generator

OpenAI Codex CLIは、ターミナルで実行される軽量なオープンソースのコーディングエージェントであり、開発者は自然言語をコード実行に変換し、コードを実行し、ファイルを操作し、バージョン管理下で反復処理できるChatGPTレベルの推論を提供します。

ランキング

投稿 & 宣伝New

MAI

製品情報

MAIとは

MAIの主な機能

MAIのユースケース

メリット

デメリット

MAIの使い方

MAIのよくある質問

1. MAIとは何ですか？その使命は何ですか？

2. MAIはどのようなモデルをリリースしましたか？

3. MAI-Transcribe-1の何が特別なのですか？

4. MAIモデルはどこで利用できますか？

5. MAIはどのような消費者向け製品に取り組んでいますか？

6. MAIの戦略は、マイクロソフトのOpenAIとの提携とどのように適合しますか？

7. 「ヒューマニスト超知能」とは何ですか？

8. MAIは誰が率いており、いつ設立されましたか？

MAIの動画

人気記事

MAIに類似した最新のAIツール

MAIに似た人気のAIツール