Magmaの主な機能は何ですか？

Magmaには、1) 言語的知能（視覚言語理解）、2) 空間的知能（視覚空間世界で計画し行動する能力）、3) エージェント的なタスク完了（UIナビゲーションとロボット操作）という3つの主要な機能があります。デジタルと物理の両方の世界でタスクを処理できます。

Magmaの事前トレーニングはどのように機能しますか？

Magmaは、画像、ビデオ、ロボット工学データを含む大規模な異種データセットで事前トレーニングされています。画像とビデオに共通のビジョンエンコーダーを使用し、テキストをトークン化し、アクション可能なオブジェクトにはSet-of-Mark（SoM）、オブジェクトの動きにはTrace-of-Mark（ToM）を使用します。これらのトークンはLLMに供給され、出力が生成されます。

Magmaはどのような種類のタスクを実行できますか？

Magmaは、UIナビゲーション（ウェブおよびモバイル）、ロボット操作（ピックアンドプレース操作など）、空間推論、マルチモーダル理解、ビデオ質問応答など、さまざまなタスクを実行できます。これらの分野、特にUIナビゲーションとロボット操作タスクで、最先端のパフォーマンスを示しています。

Magmaは他のモデルと比較してどのように機能しますか？

Magmaは、特定のタスクにおいて、以前のモデルを一貫して上回っています。UIナビゲーションとロボット操作タスクで新たな最先端の結果を生み出し、特化したモデルを凌駕しています。ビデオQAベンチマークでは、より少ないトレーニングデータを使用しているにもかかわらず、Video-Llama2やShareGPT4Videoなどのモデルと競合するパフォーマンスを発揮しています。

Magma

WebsiteContact for PricingLarge Language Models (LLMs)

Magmaは、Microsoft初のマルチモーダルAIエージェントの基盤モデルであり、言語、空間、および時間的インテリジェンスを組み合わせて、ビジョン-言語理解、UIナビゲーション、およびロボット操作機能を通じて、デジタルと物理の両方の世界で複雑なタスクをナビゲートします。

ウェブサイトを訪問

このツールを宣伝する

https://microsoft.github.io/Magma?ref=aipure&utm_source=aipure

概要
分析
動画
代替案

製品情報

更新日:2025年07月16日

Magma の月間トラフィック傾向

Magmaは、トラフィックが6.0%減少し、896Kのアクセス数となりました。この減少は、Microsoft Build 2025における重要なアップデートやニュース、特にGitHub Copilotの新しいコーディングエージェントの発表と、Visual Studio Codeにおけるオープンソース実装により、Magmaからトラフィックが分散された可能性があります。

過去のトラフィックを表示

Magmaとは

Microsoft Researchがいくつかの大学と共同で開発したMagmaは、マルチモーダルAIテクノロジーにおける重要な進歩を表しています。従来のビジョン-言語モデルを超えて、理解とコミュニケーションのための強力な言語インテリジェンスを維持するだけでなく、仮想環境と物理環境の両方でアクションを計画および実行するための空間インテリジェンスも組み込んでいます。2025年にリリースされたMagmaは、UIナビゲーションからロボット操作まで、多様なタスクを処理するように設計されており、デジタルインターフェースと現実世界のインタラクションのギャップを埋める汎用性の高い基盤モデルとなっています。

Magmaの主な機能

Magmaは、マイクロソフトによる画期的な基盤モデルであり、言語、空間、時間的知能を組み合わせたマルチモーダルAIエージェントです。独自のSet-of-Mark（SoM）およびTrace-of-Mark（ToM）アーキテクチャを通じて、デジタル環境と物理環境の両方を理解し、作用することができます。このモデルは、画像、ビデオ、ロボット工学データを含む多様なデータセットで事前トレーニングされており、ドメイン固有の微調整なしに、UIナビゲーションからロボット操作まで、さまざまなタスクを実行できます。

マルチモーダル理解: 言語、空間、時間的知能を統合して、テキスト、画像、ビデオなど、さまざまな種類の入力を処理および理解します

Set-of-Mark（SoM）アーキテクチャ: UIスクリーンショット、ロボット操作、および人間とビデオのインタラクションのために、アクション可能な要素の数値マークを予測することにより、画像内の効果的なアクショングラウンディングを可能にします

Trace-of-Mark（ToM）テクノロジー: 時間的なビデオダイナミクスと将来の状態予測の理解を可能にし、特にロボット操作と人間のアクション理解に役立ちます

ゼロショット学習能力: ドメイン固有の微調整なしにさまざまなタスクを実行でき、さまざまなドメインにわたる強力な一般化能力を示します

Magmaのユースケース

UIナビゲーション: ウェブおよびモバイルのユーザーインターフェースのナビゲーションを支援し、ボタンのクリック、フォームへの入力、ユーザーインタラクションの完了などのタスクを実行します

ロボット操作: ピッキングアンドプレース操作、オブジェクト操作、複雑な動作シーケンスなどのタスクのためにロボットアームを制御します

視覚的な質問応答: 画像やビデオに関する質問に対して詳細な回答を提供し、強力な空間推論能力を示します

人間とロボットのインタラクション: 現実世界の設定で複雑なコマンドを理解し、実行することにより、人間とロボットの自然なインタラクションを可能にします

メリット

特定の微調整なしに、複数のドメインにわたる汎用性の高いパフォーマンス

限られたトレーニングデータからの強力な一般化能力

高度な空間的および時間的推論能力

デメリット

かなりの計算リソースが必要になる場合があります

利用可能なトレーニングデータの品質と量によって制限されます

まだ開発と実世界でのテストの初期段階にあります

Magmaの使い方

必要な依存関係のインストール: pipまたはcondaを使用して、PyTorch、PIL（Python Imaging Library）、およびTransformersライブラリをインストールします

必要なライブラリのインポート: torch、PIL、BytesIO、requests、およびtransformersから必要なモデルクラスをインポートします

モデルとプロセッサのロード: 'microsoft/Magma-8B'からAutoModelForCausalLMおよびAutoProcessorを使用して、Magmaモデルとプロセッサをロードします。trust_remote_code=True

モデルをGPUに移動: より高速な処理のために、model.to('cuda')を使用してモデルをCUDAデバイスに転送します

入力画像の準備: PILを使用して入力画像をロードおよび処理し、必要に応じてRGB形式に変換します

会話形式の設定: 提供された形式に従って、システムロールとユーザープロンプトを使用して会話構造を作成します

入力の処理: プロセッサを使用して、テキストと画像の両方を含むモデルの入力を準備します

出力の生成: 処理された入力をモデルに渡し、視覚的な質問応答、UIナビゲーション、またはロボット制御などのマルチモーダルタスクの応答を生成します

モデル出力の処理: 特定のユースケース（テキスト生成、アクション予測、空間推論など）に従って、モデルの出力を処理および使用します

Magmaのよくある質問

Magmaは、マイクロソフト初のマルチモーダルAIエージェント向け基盤モデルであり、仮想環境と現実環境の両方で複雑なインタラクションを処理するように設計されています。視覚言語モデルを拡張し、言語的知能と空間的知能を組み合わせることで、UIナビゲーションからロボット操作まで、幅広いタスクを実行できます。