
Magma
Magmaは、Microsoft初のマルチモーダルAIエージェントの基盤モデルであり、言語、空間、および時間的インテリジェンスを組み合わせて、ビジョン-言語理解、UIナビゲーション、およびロボット操作機能を通じて、デジタルと物理の両方の世界で複雑なタスクをナビゲートします。
https://microsoft.github.io/Magma?ref=aipure&utm_source=aipure

製品情報
更新日:2025年02月28日
Magmaとは
Microsoft Researchがいくつかの大学と共同で開発したMagmaは、マルチモーダルAIテクノロジーにおける重要な進歩を表しています。従来のビジョン-言語モデルを超えて、理解とコミュニケーションのための強力な言語インテリジェンスを維持するだけでなく、仮想環境と物理環境の両方でアクションを計画および実行するための空間インテリジェンスも組み込んでいます。2025年にリリースされたMagmaは、UIナビゲーションからロボット操作まで、多様なタスクを処理するように設計されており、デジタルインターフェースと現実世界のインタラクションのギャップを埋める汎用性の高い基盤モデルとなっています。
Magmaの主な機能
Magmaは、マイクロソフトによる画期的な基盤モデルであり、言語、空間、時間的知能を組み合わせたマルチモーダルAIエージェントです。独自のSet-of-Mark(SoM)およびTrace-of-Mark(ToM)アーキテクチャを通じて、デジタル環境と物理環境の両方を理解し、作用することができます。このモデルは、画像、ビデオ、ロボット工学データを含む多様なデータセットで事前トレーニングされており、ドメイン固有の微調整なしに、UIナビゲーションからロボット操作まで、さまざまなタスクを実行できます。
マルチモーダル理解: 言語、空間、時間的知能を統合して、テキスト、画像、ビデオなど、さまざまな種類の入力を処理および理解します
Set-of-Mark(SoM)アーキテクチャ: UIスクリーンショット、ロボット操作、および人間とビデオのインタラクションのために、アクション可能な要素の数値マークを予測することにより、画像内の効果的なアクショングラウンディングを可能にします
Trace-of-Mark(ToM)テクノロジー: 時間的なビデオダイナミクスと将来の状態予測の理解を可能にし、特にロボット操作と人間のアクション理解に役立ちます
ゼロショット学習能力: ドメイン固有の微調整なしにさまざまなタスクを実行でき、さまざまなドメインにわたる強力な一般化能力を示します
Magmaのユースケース
UIナビゲーション: ウェブおよびモバイルのユーザーインターフェースのナビゲーションを支援し、ボタンのクリック、フォームへの入力、ユーザーインタラクションの完了などのタスクを実行します
ロボット操作: ピッキングアンドプレース操作、オブジェクト操作、複雑な動作シーケンスなどのタスクのためにロボットアームを制御します
視覚的な質問応答: 画像やビデオに関する質問に対して詳細な回答を提供し、強力な空間推論能力を示します
人間とロボットのインタラクション: 現実世界の設定で複雑なコマンドを理解し、実行することにより、人間とロボットの自然なインタラクションを可能にします
メリット
特定の微調整なしに、複数のドメインにわたる汎用性の高いパフォーマンス
限られたトレーニングデータからの強力な一般化能力
高度な空間的および時間的推論能力
デメリット
かなりの計算リソースが必要になる場合があります
利用可能なトレーニングデータの品質と量によって制限されます
まだ開発と実世界でのテストの初期段階にあります
Magmaの使い方
必要な依存関係のインストール: pipまたはcondaを使用して、PyTorch、PIL(Python Imaging Library)、およびTransformersライブラリをインストールします
必要なライブラリのインポート: torch、PIL、BytesIO、requests、およびtransformersから必要なモデルクラスをインポートします
モデルとプロセッサのロード: 'microsoft/Magma-8B'からAutoModelForCausalLMおよびAutoProcessorを使用して、Magmaモデルとプロセッサをロードします。trust_remote_code=True
モデルをGPUに移動: より高速な処理のために、model.to('cuda')を使用してモデルをCUDAデバイスに転送します
入力画像の準備: PILを使用して入力画像をロードおよび処理し、必要に応じてRGB形式に変換します
会話形式の設定: 提供された形式に従って、システムロールとユーザープロンプトを使用して会話構造を作成します
入力の処理: プロセッサを使用して、テキストと画像の両方を含むモデルの入力を準備します
出力の生成: 処理された入力をモデルに渡し、視覚的な質問応答、UIナビゲーション、またはロボット制御などのマルチモーダルタスクの応答を生成します
モデル出力の処理: 特定のユースケース(テキスト生成、アクション予測、空間推論など)に従って、モデルの出力を処理および使用します
Magmaのよくある質問
Magmaは、マイクロソフト初のマルチモーダルAIエージェント向け基盤モデルであり、仮想環境と現実環境の両方で複雑なインタラクションを処理するように設計されています。視覚言語モデルを拡張し、言語的知能と空間的知能を組み合わせることで、UIナビゲーションからロボット操作まで、幅広いタスクを実行できます。