Magma의 주요 기능은 무엇입니까?

Magma는 1) 언어적 지능(시각-언어 이해), 2) 공간적 지능(시각-공간 세계에서 계획하고 행동하는 능력), 3) 에이전트 작업 완료(UI 탐색 및 로봇 조작)의 세 가지 주요 기능을 가지고 있습니다. 디지털 세계와 물리적 세계 모두에서 작업을 처리할 수 있습니다.

Magma의 사전 훈련은 어떻게 작동합니까?

Magma는 이미지, 비디오 및 로봇 데이터를 포함한 대규모 이기종 데이터 세트에 대해 사전 훈련됩니다. 이미지 및 비디오에 대한 공유 시각 인코더를 사용하고, 텍스트를 토큰화하고, 실행 가능한 객체에 대해서는 Set-of-Mark(SoM)를, 객체 이동에 대해서는 Trace-of-Mark(ToM)를 사용합니다. 이러한 토큰은 LLM에 입력되어 출력을 생성합니다.

Magma는 어떤 유형의 작업을 수행할 수 있습니까?

Magma는 UI 탐색(웹 및 모바일), 로봇 조작(예: 픽 앤 플레이스 작업), 공간 추론, 멀티모달 이해 및 비디오 질의 응답을 포함한 다양한 작업을 수행할 수 있습니다. 특히 UI 탐색 및 로봇 조작 작업에서 이러한 영역에서 최첨단 성능을 보여주었습니다.

Magma는 다른 모델과 비교하여 어떤 성능을 보입니까?

Magma는 특정 작업에서 이전 모델보다 일관되게 뛰어난 성능을 보입니다. UI 탐색 및 로봇 조작 작업에서 새로운 최첨단 결과를 만들어 전문화된 모델보다 뛰어난 성능을 보입니다. 비디오 QA 벤치마크에서는 더 적은 훈련 데이터를 사용함에도 불구하고 Video-Llama2 및 ShareGPT4Video와 같은 모델과 경쟁력 있는 성능을 보입니다.

Magma

WebsiteContact for PricingLarge Language Models (LLMs)

Magma는 비전-언어 이해, UI 탐색 및 로봇 조작 기능을 통해 디지털 및 물리적 세계 모두에서 복잡한 작업을 탐색하기 위해 언어적, 공간적 및 시간적 지능을 결합한 Microsoft의 멀티모달 AI 에이전트를 위한 최초의 기반 모델입니다.

웹사이트 방문

이 도구 광고하기

https://microsoft.github.io/Magma?ref=aipure&utm_source=aipure

개요
분석
동영상
대안

제품 정보

업데이트됨:Jul 15, 2025

Magma 월간 트래픽 동향

Magma는 트래픽이 6.0% 감소하여 896K의 방문을 기록했습니다. 이러한 감소는 Microsoft Build 2025의 주요 업데이트와 소식, 특히 GitHub Copilot의 새로운 코딩 에이전트 출시와 이의 Visual Studio Code에서의 오픈소스 구현에 기인한 것으로 보이며, 이로 인해 Magma로부터 관심과 트래픽이 분산된 것으로 추정됩니다.

과거 트래픽 보기

Magma이란?

Microsoft Research가 여러 대학과 협력하여 개발한 Magma는 멀티모달 AI 기술의 중요한 발전을 나타냅니다. 이해 및 커뮤니케이션을 위한 강력한 언어 지능을 유지할 뿐만 아니라 가상 및 물리적 환경 모두에서 행동을 계획하고 실행하기 위한 공간 지능을 통합하여 기존의 비전-언어 모델을 뛰어넘습니다. 2025년에 출시된 Magma는 UI 탐색에서 로봇 조작에 이르기까지 다양한 작업을 처리하도록 설계되어 디지털 인터페이스와 실제 상호 작용 간의 격차를 해소하는 다용도 기반 모델입니다.

Magma의 주요 기능

Magma는 언어적, 공간적, 시간적 지능을 결합한 멀티모달 AI 에이전트를 위한 Microsoft의 획기적인 기반 모델입니다. 고유한 SoM(Set-of-Mark) 및 ToM(Trace-of-Mark) 아키텍처를 통해 디지털 및 물리적 환경을 모두 이해하고 이에 따라 행동할 수 있습니다. 이 모델은 이미지, 비디오, 로봇 공학 데이터를 포함한 다양한 데이터 세트에 대해 사전 훈련되어 도메인별 미세 조정 없이 UI 탐색에서 로봇 조작에 이르기까지 다양한 작업을 수행할 수 있습니다.

멀티모달 이해: 언어적, 공간적, 시간적 지능을 통합하여 텍스트, 이미지, 비디오를 포함한 다양한 유형의 입력을 처리하고 이해합니다.

SoM(Set-of-Mark) 아키텍처: 실행 가능한 요소에 대한 숫자 마크를 예측하여 UI 스크린샷, 로봇 조작 및 인간 비디오 상호 작용에서 효과적인 작업 기반을 가능하게 합니다.

ToM(Trace-of-Mark) 기술: 시간적 비디오 역학 및 미래 상태 예측을 이해할 수 있도록 하여 특히 로봇 조작 및 인간 행동 이해에 유용합니다.

제로샷 학습 능력: 도메인별 미세 조정 없이 다양한 작업을 수행할 수 있어 다양한 도메인에서 강력한 일반화 능력을 보여줍니다.

Magma의 사용 사례

UI 탐색: 웹 및 모바일 사용자 인터페이스 탐색을 지원하여 버튼 클릭, 양식 작성, 사용자 상호 작용 완료와 같은 작업을 수행합니다.

로봇 조작: 픽 앤 플레이스 작업, 물체 조작, 복잡한 움직임 시퀀스와 같은 작업을 위해 로봇 팔을 제어합니다.

시각적 질의 응답: 이미지 및 비디오에 대한 질문에 대한 자세한 응답을 제공하여 강력한 공간 추론 능력을 보여줍니다.

인간-로봇 상호 작용: 실제 환경에서 복잡한 명령을 이해하고 실행하여 인간과 로봇 간의 자연스러운 상호 작용을 가능하게 합니다.

장점

특정 미세 조정 없이 여러 도메인에서 다재다능한 성능을 제공합니다.

제한된 훈련 데이터에서 강력한 일반화 능력을 제공합니다.

고급 공간 및 시간 추론 능력을 제공합니다.

단점

상당한 계산 자원이 필요할 수 있습니다.

사용 가능한 훈련 데이터의 품질과 양에 따라 제한됩니다.

아직 개발 및 실제 테스트의 초기 단계에 있습니다.

Magma 사용 방법

필수 종속성 설치: pip 또는 conda를 사용하여 PyTorch, PIL(Python Imaging Library) 및 Transformers 라이브러리 설치

필수 라이브러리 가져오기: torch, PIL, BytesIO, requests 및 transformers에서 필요한 모델 클래스 가져오기

모델 및 프로세서 로드: trust_remote_code=True로 \'microsoft/Magma-8B\'에서 AutoModelForCausalLM 및 AutoProcessor를 사용하여 Magma 모델 및 프로세서 로드

모델을 GPU로 이동: 더 빠른 처리를 위해 model.to(\'cuda\')를 사용하여 모델을 CUDA 장치로 전송

입력 이미지 준비: PIL을 사용하여 입력 이미지를 로드하고 처리하고 필요한 경우 RGB 형식으로 변환

대화 형식 설정: 제공된 형식에 따라 시스템 역할 및 사용자 프롬프트로 대화 구조 만들기

입력 처리: 프로세서를 사용하여 텍스트와 이미지를 모두 포함하여 모델에 대한 입력을 준비

출력 생성: 처리된 입력을 모델에 전달하여 시각적 질문 응답, UI 탐색 또는 로봇 제어와 같은 멀티모달 작업에 대한 응답 생성

모델 출력 처리: 특정 사용 사례(텍스트 생성, 행동 예측, 공간 추론 등)에 따라 모델의 출력을 처리하고 사용

Magma 자주 묻는 질문

Magma는 Microsoft의 멀티모달 AI 에이전트를 위한 최초의 파운데이션 모델로, 가상 환경과 실제 환경 모두에서 복잡한 상호 작용을 처리하도록 설계되었습니다. 언어적 지능과 공간적 지능을 결합하여 UI 탐색에서 로봇 조작에 이르기까지 다양한 작업을 수행함으로써 시각-언어 모델을 확장합니다.