MAI-Image-2.5はいつリリースされ、どのようなバリアントがありますか？

Microsoftは、2026年6月2日にMAI-Image-2.5-FlashとともにMAI-Image-2.5を発表しました。MAI-Image-2.5は最高の忠実度を目標としており、MAI-Image-2.5-Flashはスケーラブルなワークロード向けの、より高速で低コストなオプションとして位置付けられています。

MAI-Image-2.5はArenaのリーダーボードでどのようにランク付けされていますか？

Microsoftの報告によると、MAI-Image-2.5はArenaのテキストから画像へのリーダーボードで3位、Arenaの画像編集（単一画像編集）リーダーボードで2位にランクされており、Nano Banana 2.1を上回っています。また、ArenaスコアはGPT-Image-1.5とNano Banana Pro 2Kを凌駕していると報告されています。

MAI-Image-2.5の主要な機能は何ですか？

Microsoftは、テキストから画像への品質（詳細、一貫性、テキストレンダリング、製品画像、プロンプトへの忠実度）、複雑な視覚的推論（シーン構造、照明、スケール、空間関係）、きめ細かなローカライズされた編集（オブジェクトの置換、テキストの更新、残りの部分を変更せずにモーションブラーの除去）、および編集全体での顔/アイデンティティの一貫性の改善を強調しています。

開発者はどこでMAI-Image-2.5にアクセスできますか？

Microsoftによると、MAI-Image-2.5とMAI-Image-2.5-FlashはMicrosoft Foundry（Azure AI Foundry）で開発者向けに提供されており、MAI Playgroundで試すことができます。

どのMicrosoft製品がMAI-Image-2.5を使用していますか？

Microsoftは、MAI-Image-2.5がPowerPointで高品質な画像生成のために稼働しており、OneDriveには正確な写真編集（例：邪魔なものの除去、背景のクリーンアップ、シーンを維持しながらの画像の強化）のために展開されていると述べています。

FoundryでのMAI-Image-2.5の費用はいくらですか？

Microsoftは、MAI-Image-2.5の価格を、テキスト入力トークン100万個あたり5ドル、画像入力トークン100万個あたり8ドル、画像出力トークン100万個あたり47ドルと提示しています。MAI-Image-2.5-Flashは、テキスト入力トークン100万個あたり1.75ドル、画像入力トークン100万個あたり1.75ドル、画像出力トークン100万個あたり19.50ドルと提示されています。

MicrosoftはMAI-Image-2.5についてどのような安全上の制限を指摘していますか？

Microsoftによると、MAI-Image-2.5には、有害なコンテンツやポリシー違反のコンテンツを検出してブロックするための階層化された安全ガードレール（プロンプトと出力のフィルタリング）が含まれています。Microsoftはまた、すべての画像モデルと同様に、偏見を反映したり、もっともらしいが不正確または誤解を招く詳細を生成したりする可能性があるため、機密性の高いコンテキスト（例：ID、法律、医療、金融、ニュース関連のワークフロー）で使用する前に出力を確認する必要があると警告しています。

MAI-Image-2.5

WebsitePaidText to Image

MAI-Image-2.5は、Microsoftの最も強力な画像モデルであり、強力なプロンプト遵守、改善されたテキストレンダリング、およびアイデンティティに一貫した顔の保持を備えた、高忠実度のテキストから画像への生成と正確で制御可能な画像から画像への編集を提供します。

ウェブサイトを訪問

このツールを宣伝する

https://microsoft.ai/news/introducing-mai-image-2-5?ref=producthunt&utm_source=aipure

概要
動画
代替案

製品情報

更新日:2026年06月08日

MAI-Image-2.5とは

MAI-Image-2.5は、本番環境に対応したクリエイティブワークフローのために構築されたMicrosoft AI（MAI）画像生成および編集モデルです。高品質で一貫性のあるテキストから画像への出力と、ターゲットを絞った変更を適用しながら元のシーンを保持するきめ細かい画像編集に重点を置いています。サードパーティのArena評価では、MAI-Image-2.5はテキストから画像で3位、画像編集で2位（Nano Banana 2.1を上回る）にランクされており、作成タスクと編集タスクの両方で強力な人間の好みの一貫したパフォーマンスを反映しています。Microsoftはまた、スケーラブルでレイテンシに敏感なワークロード向けに設計された、より高速で低コストのバリアントであるMAI-Image-2.5-Flashも提供しています。このモデルファミリーは、Microsoft Foundryを通じて開発者に提供されており、MAI Playgroundで試すことができ、PowerPoint（画像生成）やOneDrive（正確な写真編集）などのMicrosoft製品の機能をすでに強化しています。

MAI-Image-2.5の主な機能

MAI-Image-2.5は、Microsoftの最高忠実度画像生成および編集モデルであり、強力なプロンプト順守、改善されたテキストレンダリング、および画像の残りの部分を保持する制御可能でローカライズされた編集機能を備えた、プロダクション対応のクリエイティブワークフロー向けに設計されています。「保存を伴う制御」による画像から画像への編集を追加し、複雑な視覚的推論（照明、スケール、空間関係）をサポートし、編集全体で顔/アイデンティティの一貫性を維持します。Arenaで高い評価を得ており（テキストから画像へは3位、画像編集は2位）、Microsoft FoundryおよびMAI Playgroundで利用可能であり、PowerPoint（生成）やOneDrive（正確な写真編集）などの製品統合も行われています。より高速で低コストのバリアント（MAI-Image-2.5-Flash）は、スケーラブルなワークロードを対象としています。

高忠実度テキストから画像への生成: より強力なプロンプト順守と、より優れたタイポグラフィとレイアウトの安定性を含む、改善された商用品質の出力により、プロンプトからより詳細で一貫性のある画像を生成します。

ローカライズされた制御による画像から画像への編集: オブジェクトの置換、テキストの更新、モーションブラーの除去、背景のクリーンアップなど、正確な編集をサポートし、画像の残りの部分を変更しないままにします（「保存を伴う制御」）。

リアルな編集のための複雑な視覚的推論: シーン構造、照明、遠近法、スケール、空間関係を理解し、挿入または変更された要素がコンテキストと一致するようにします（例：正しい影と視点）。

顔とアイデンティティの一貫性: ポーズ、表情、視点を変更しても、編集全体で認識可能な顔のアイデンティティを保持します。これは、人物を含む反復的なクリエイティブ作業に役立ちます。

2つの展開オプション：忠実度 vs. 速度: MAI-Image-2.5は最高の品質を目指し、MAI-Image-2.5-Flashは、高スループットの生産パイプライン向けに、より高速で低コストの生成と編集を提供します。

エンタープライズアクセスとMicrosoft製品統合: Microsoft Foundry APIおよびMAI Playgroundを通じて利用可能。PowerPointに統合され、プレゼンテーション対応のビジュアルを提供し、OneDriveに展開され、正確な写真編集が可能になります。

MAI-Image-2.5のユースケース

マーケティングおよび広告クリエイティブ: 改善されたタイポグラフィとプロンプト忠実度により、キャンペーンコンセプト、製品ヒーローショット、ブランド重視のビジュアルを生成し、制御された編集を通じて迅速に反復します。

パッケージ、ラベル、ポスターのモックアップ: 読みやすいテキストが重要なデザインドラフト（ポスター、ラベル、パッケージコンセプト、店頭/棚のビジュアル）を作成し、画像全体をやり直すことなく特定の領域を修正します。

Eコマースおよび小売コンテンツパイプライン: スケーラブルな製品画像のバリエーション（背景、小道具、照明）を生成し、カタログのクリーンアップ/編集を行いながら、コア製品の外観を保持します。

プレゼンテーションおよび企業コミュニケーション: PowerPointで、プロンプトからプレゼンテーション対応のビジュアルを生成し、一貫したスライド画像を生成し、特定の要素（アイコン、タイトル、図）を反復します。

消費者向け写真編集およびコンテンツ復元: OneDriveスタイルのワークフローで、邪魔なものを削除し、背景をクリーンアップし、元のシーン構成を保持しながら写真を強化します。

教育および指導用グラフィックス: 構造化されたレイアウトと埋め込みテキストを必要とする図、ポスター、説明用ビジュアルを生成し、ラベルや要素を修正するためにターゲットを絞った編集を適用します。

メリット

独立したArenaリーダーボードでの強力な生成および編集パフォーマンス（テキストから画像へ、画像編集の両方でトップティア）。

保存を伴うきめ細かなローカライズされた編集により、手直しを減らし、反復的な生産スタイルのワークフローを可能にします。

以前のバージョンと比較して、テキストレンダリングと商用画像の品質が向上し、出力がよりデザイン対応になりました。

スケーラブルな生産ワークロード向けのFlashバリアントによる柔軟なコスト/レイテンシのトレードオフ。

デメリット

すべての画像モデルと同様に、トレーニングデータのバイアスを反映する可能性があり、もっともらしいが不正確/誤解を招く詳細を生成する可能性があります。機密性の高いコンテキスト（ID、法律、医療、金融、ニュース）では人間のレビューが必要です。

安全フィルターとポリシーガードレールは、特定のプロンプト/編集を制限する可能性があり、一部のクリエイティブまたはエッジケースのワークフローを制約する可能性があります。

高忠実度での使用はFlashよりも高価になる可能性があり、大規模なパイプラインにはコスト管理が必要です。

MAI-Image-2.5の使い方

1) MAI-Image-2.5へのアクセス方法を選択する: ワークフローに合ったエントリーポイントを選択してください: (a) Microsoft Foundry (API/本番環境)、(b) MAI Playground (インタラクティブなテスト)、または (c) 統合されているMicrosoft製品 (PowerPointでの生成、OneDriveでの正確な写真編集の展開)。

2) 使用するモデルバリアントを決定する（品質 vs 速度/コスト）: 最高の忠実度ときめ細かい制御にはMAI-Image-2.5を使用してください。より高速でスケーラブル、低コストの生成/編集ワークロードにはMAI-Image-2.5-Flashを使用してください。

3) MAI Playgroundで素早く試す（コード不要の評価）: https://playground.microsoft.ai/chat でMAI Playgroundを開き、モデルピッカーからMAI-Image-2.5（またはMAI-Image-2.5-Flash）を選択し、テキストから画像へのプロンプトを実行して、スタイル、プロンプトの遵守、特に画像内のテキストレンダリングを評価します。

4) テキストプロンプトから画像を生成する（テキストから画像へ）: Playground（または後でAPI経由）で、被写体、環境、照明、カメラ/スタイル、および必要な画像上のテキストを記述する詳細なプロンプトを入力します。MAI-Image-2.5は、製品画像、様式化されたイラスト、およびより鮮明なテキストレンダリングに特に強力であると位置付けられています。

5) 画像から画像への編集を実行する（画像をアップロードし、編集内容を記述する）: 既存の画像を提供し、必要な変更を指定します（例：オブジェクトの置換、ラベル/ポスターのテキストの更新、モーションブラーの削除、背景のクリーンアップ）。MAI-Image-2.5は、局所的な編集を適用しながら、画像の残りの部分を安定させるように設計されています。

6) きめ細かい、局所的な編集指示を使用する: 編集時には、何を変更する必要があり、何を変更してはならないかを明示的に指定します（例：「ボトルラベルのロゴのみを置き換え、照明、反射、背景は同じに保つ」）。このモデルは、シーンの残りの部分を変更することなく、正確で制御可能な編集をサポートすると説明されています。

7) 現実的な編集のためにシーン構造の認識を活用する: 追加/削除の場合、遠近法、影、スケールに関する制約を含めます（例：「テーブルに、一致する遠近法と窓の光と一致する柔らかな影を持つマグカップを追加する」）。MAI-Image-2.5は、コンテキストに合った編集を行うために、照明と空間関係を理解すると説明されています。

8) 編集全体で顔/アイデンティティの一貫性を維持する（該当する場合）: ポートレートを編集する場合、ポーズ/表情/視点を変更しながらアイデンティティを維持する必要があることを指定します（例：「同じ人物を維持し、表情を微妙な笑顔に変更し、肌の色と顔の特徴を一貫させる」）。MAI-Image-2.5は、編集全体で認識可能な肖像を維持すると説明されています。

9) Microsoft Foundry経由で本番環境に移行する（開発者/APIルート）: Microsoft Foundryで、MAI-Image-2.5またはMAI-Image-2.5-Flashモデルカードを見つけ、アプリケーションのモデルエンドポイントとしてデプロイ/使用します。Foundryは、API経由でモデルを呼び出すための主要な開発者アクセスルートとして説明されています。

10) 適切なバリアントを使用してコストとスループットを最適化する: バッチ生成または大量のパイプラインにはMAI-Image-2.5-Flashを推奨し、プレミアムなクリエイティブアセットと最高の編集忠実度にはMAI-Image-2.5を推奨します。公式ソースは、Flashが高速/低コストであり、MAI-Image-2.5が最高の忠実度であることを強調しています。

11) Microsoft製品内で使用する（利用可能な場合）: PowerPoint：PowerPointのCopilotを使用して、プロンプトからプレゼンテーション対応のビジュアル/スライドを生成します。OneDrive：AI写真編集機能（展開中）を使用して、元のシーンを保持しながら、邪魔なものを削除したり、背景をクリーンアップしたりするなどの正確な編集を行います。

12) 機密性の高いユースケースには人間によるレビューのステップを追加する: Microsoftは、このモデルがもっともらしいが不正確/誤解を招く視覚的詳細を生成する可能性があり、トレーニングデータのバイアスを反映する可能性があると指摘しています。機密性の高いコンテキスト（アイデンティティ、法律、医療、金融、またはニュース関連のワークフロー）で使用する前に出力をレビューしてください。