
Magma
Magma는 비전-언어 이해, UI 탐색 및 로봇 조작 기능을 통해 디지털 및 물리적 세계 모두에서 복잡한 작업을 탐색하기 위해 언어적, 공간적 및 시간적 지능을 결합한 Microsoft의 멀티모달 AI 에이전트를 위한 최초의 기반 모델입니다.
https://microsoft.github.io/Magma?ref=aipure&utm_source=aipure

제품 정보
업데이트됨:Feb 28, 2025
Magma이란?
Microsoft Research가 여러 대학과 협력하여 개발한 Magma는 멀티모달 AI 기술의 중요한 발전을 나타냅니다. 이해 및 커뮤니케이션을 위한 강력한 언어 지능을 유지할 뿐만 아니라 가상 및 물리적 환경 모두에서 행동을 계획하고 실행하기 위한 공간 지능을 통합하여 기존의 비전-언어 모델을 뛰어넘습니다. 2025년에 출시된 Magma는 UI 탐색에서 로봇 조작에 이르기까지 다양한 작업을 처리하도록 설계되어 디지털 인터페이스와 실제 상호 작용 간의 격차를 해소하는 다용도 기반 모델입니다.
Magma의 주요 기능
Magma는 언어적, 공간적, 시간적 지능을 결합한 멀티모달 AI 에이전트를 위한 Microsoft의 획기적인 기반 모델입니다. 고유한 SoM(Set-of-Mark) 및 ToM(Trace-of-Mark) 아키텍처를 통해 디지털 및 물리적 환경을 모두 이해하고 이에 따라 행동할 수 있습니다. 이 모델은 이미지, 비디오, 로봇 공학 데이터를 포함한 다양한 데이터 세트에 대해 사전 훈련되어 도메인별 미세 조정 없이 UI 탐색에서 로봇 조작에 이르기까지 다양한 작업을 수행할 수 있습니다.
멀티모달 이해: 언어적, 공간적, 시간적 지능을 통합하여 텍스트, 이미지, 비디오를 포함한 다양한 유형의 입력을 처리하고 이해합니다.
SoM(Set-of-Mark) 아키텍처: 실행 가능한 요소에 대한 숫자 마크를 예측하여 UI 스크린샷, 로봇 조작 및 인간 비디오 상호 작용에서 효과적인 작업 기반을 가능하게 합니다.
ToM(Trace-of-Mark) 기술: 시간적 비디오 역학 및 미래 상태 예측을 이해할 수 있도록 하여 특히 로봇 조작 및 인간 행동 이해에 유용합니다.
제로샷 학습 능력: 도메인별 미세 조정 없이 다양한 작업을 수행할 수 있어 다양한 도메인에서 강력한 일반화 능력을 보여줍니다.
Magma의 사용 사례
UI 탐색: 웹 및 모바일 사용자 인터페이스 탐색을 지원하여 버튼 클릭, 양식 작성, 사용자 상호 작용 완료와 같은 작업을 수행합니다.
로봇 조작: 픽 앤 플레이스 작업, 물체 조작, 복잡한 움직임 시퀀스와 같은 작업을 위해 로봇 팔을 제어합니다.
시각적 질의 응답: 이미지 및 비디오에 대한 질문에 대한 자세한 응답을 제공하여 강력한 공간 추론 능력을 보여줍니다.
인간-로봇 상호 작용: 실제 환경에서 복잡한 명령을 이해하고 실행하여 인간과 로봇 간의 자연스러운 상호 작용을 가능하게 합니다.
장점
특정 미세 조정 없이 여러 도메인에서 다재다능한 성능을 제공합니다.
제한된 훈련 데이터에서 강력한 일반화 능력을 제공합니다.
고급 공간 및 시간 추론 능력을 제공합니다.
단점
상당한 계산 자원이 필요할 수 있습니다.
사용 가능한 훈련 데이터의 품질과 양에 따라 제한됩니다.
아직 개발 및 실제 테스트의 초기 단계에 있습니다.
Magma 사용 방법
필수 종속성 설치: pip 또는 conda를 사용하여 PyTorch, PIL(Python Imaging Library) 및 Transformers 라이브러리 설치
필수 라이브러리 가져오기: torch, PIL, BytesIO, requests 및 transformers에서 필요한 모델 클래스 가져오기
모델 및 프로세서 로드: trust_remote_code=True로 \'microsoft/Magma-8B\'에서 AutoModelForCausalLM 및 AutoProcessor를 사용하여 Magma 모델 및 프로세서 로드
모델을 GPU로 이동: 더 빠른 처리를 위해 model.to(\'cuda\')를 사용하여 모델을 CUDA 장치로 전송
입력 이미지 준비: PIL을 사용하여 입력 이미지를 로드하고 처리하고 필요한 경우 RGB 형식으로 변환
대화 형식 설정: 제공된 형식에 따라 시스템 역할 및 사용자 프롬프트로 대화 구조 만들기
입력 처리: 프로세서를 사용하여 텍스트와 이미지를 모두 포함하여 모델에 대한 입력을 준비
출력 생성: 처리된 입력을 모델에 전달하여 시각적 질문 응답, UI 탐색 또는 로봇 제어와 같은 멀티모달 작업에 대한 응답 생성
모델 출력 처리: 특정 사용 사례(텍스트 생성, 행동 예측, 공간 추론 등)에 따라 모델의 출력을 처리하고 사용
Magma 자주 묻는 질문
Magma는 Microsoft의 멀티모달 AI 에이전트를 위한 최초의 파운데이션 모델로, 가상 환경과 실제 환경 모두에서 복잡한 상호 작용을 처리하도록 설계되었습니다. 언어적 지능과 공간적 지능을 결합하여 UI 탐색에서 로봇 조작에 이르기까지 다양한 작업을 수행함으로써 시각-언어 모델을 확장합니다.