
Phi-4-multimodal and Phi-4-mini
Microsoft의 Phi-4-multimodal(56억 개의 매개변수) 및 Phi-4-mini(38억 개의 매개변수)는 최소한의 컴퓨팅 리소스를 필요로 하면서 강력한 멀티모달 처리 및 효율적인 텍스트 기반 기능을 제공하는 새로운 소형 언어 모델입니다.
https://azure.microsoft.com/en-us/blog/empowering-innovation-the-next-generation-of-the-phi-family?ref=aipure&utm_source=aipure

제품 정보
업데이트됨:May 16, 2025
Phi-4-multimodal and Phi-4-mini 월간 트래픽 동향
Phi-4-multimodal과 Phi-4-mini는 트래픽이 7.4% 감소했으며, 방문자 수가 563K 감소했습니다. 이는 최근 제품 업데이트가 없었던 점과 고급 AI 기능을 제공하는 Azure의 Microsoft Copilot 출시로 인해 사용자들이 이탈했을 수 있습니다.
Phi-4-multimodal and Phi-4-mini이란?
Phi-4-multimodal 및 Phi-4-mini는 효율성을 유지하면서 고급 AI 기능을 통해 개발자에게 권한을 부여하도록 설계된 Microsoft의 소형 언어 모델(SLM)인 Phi 제품군에 새로 추가된 모델입니다. Phi-4-multimodal은 음성, 시각 및 텍스트 처리를 단일 통합 아키텍처에 원활하게 통합하는 Microsoft의 최초 멀티모달 언어 모델인 반면, Phi-4-mini는 추론, 수학, 코딩 및 명령 추적과 같은 텍스트 기반 작업에 뛰어납니다. 두 모델 모두 이제 Azure AI Foundry, Hugging Face 및 NVIDIA API Catalog를 통해 사용할 수 있으므로 개발자가 혁신적인 AI 애플리케이션을 구축할 수 있습니다.
Phi-4-multimodal and Phi-4-mini의 주요 기능
Phi-4-multimodal(56억 개의 파라미터)과 Phi-4-mini(38억 개의 파라미터)는 효율적인 AI 배포를 위해 설계된 Microsoft의 최신 소형 언어 모델입니다. Phi-4-multimodal은 단일 아키텍처에서 음성, 시각, 텍스트 처리를 고유하게 통합하는 반면, Phi-4-mini는 추론, 수학, 코딩과 같은 텍스트 기반 작업에 탁월합니다. 두 모델 모두 컴퓨팅 제약 환경에 최적화되어 있으며 클라우드, 에지, 모바일 장치에 배포할 수 있어 낮은 컴퓨팅 요구 사항으로 높은 성능을 제공합니다.
통합 멀티모달 처리: Phi-4-multimodal은 mixture-of-LoRAs 기술을 사용하여 단일 모델에서 음성, 시각, 텍스트 처리를 통합하여 성능 저하 없이 여러 입력 유형을 동시에 처리할 수 있습니다.
작지만 강력함: 두 모델 모두 크기가 더 작음에도 불구하고 높은 성능 수준을 유지하며, Phi-4-mini는 텍스트 기반 작업에서 더 큰 모델보다 성능이 뛰어나고 Phi-4-multimodal은 더 많은 리소스를 사용하는 경쟁사의 기능과 일치합니다.
크로스 플랫폼 배포: 두 모델 모두 ONNX Runtime을 사용하여 다양한 플랫폼에 최적화할 수 있으므로 효율적인 리소스 활용으로 에지 장치, 휴대폰 및 클라우드 환경에 배포할 수 있습니다.
확장된 컨텍스트 처리: 최대 128,000개의 토큰 처리를 지원하여 효율성을 유지하면서 대용량 문서 및 복잡한 컨텍스트 분석을 가능하게 합니다.
Phi-4-multimodal and Phi-4-mini의 사용 사례
자동차 인텔리전스: 온라인 및 오프라인에서 모두 작동하는 음성 명령 처리, 운전자 모니터링, 제스처 인식, 실시간 내비게이션 지원을 위한 차량 시스템 통합
의료 애플리케이션: 컴퓨팅 제약 환경에서 데이터 개인 정보를 유지하면서 시각적 분석, 환자 기록 요약, 신속한 진단 지원을 통한 의료 진단 지원
스마트 장치 통합: 낮은 대기 시간으로 실시간 언어 번역, 이미지 분석, 지능형 개인 비서를 위한 스마트폰 및 개인 장치에 임베딩
금융 서비스: 복잡한 금융 계산 자동화, 다국어 보고서 생성, 계산 작업에서 높은 정확도를 유지하면서 금융 문서 번역
장점
높은 성능을 유지하면서 작은 모델 크기로 효율적인 리소스 활용
다양한 컴퓨팅 환경에서 다양한 배포 옵션
컴팩트한 형태의 강력한 추론 및 멀티모달 처리 기능
단점
Gemini-2.0-Flash와 같은 더 큰 모델에 비해 음성 QA 작업에서 성능 격차
소규모 기업이 구현하고 통합하는 데 어려움이 있을 수 있습니다.
더 큰 언어 모델에 비해 제한된 지식 보존 용량
Phi-4-multimodal and Phi-4-mini 사용 방법
필수 종속성 설치: 필요한 패키지 설치: pip install transformers==4.48.2 flash_attn==2.7.4.post1 torch==2.6.0 accelerate==1.3.0 soundfile==0.13.1 pillow==11.1.0 scipy==1.15.2 torchvision==0.21.0 backoff==2.2.1 peft==0.13.2
필수 라이브러리 가져오기: 필요한 Python 라이브러리 가져오기: import requests, torch, os, io, PIL, soundfile, transformers
모델 로드: 다음 명령을 사용하여 모델 및 프로세서 로드: model_path = 'microsoft/Phi-4-multimodal-instruct'; processor = AutoProcessor.from_pretrained(model_path); model = AutoModelForCausalLM.from_pretrained(model_path)
입력 준비: 텍스트, 이미지 또는 오디오 유형에 따라 입력을 포맷합니다. 텍스트의 경우 시스템 및 사용자 메시지와 함께 채팅 형식을 사용합니다. 이미지/오디오의 경우 지원되는 형식인지 확인합니다.
출력 생성: 파이프라인을 사용하여 출력 생성: pipeline = transformers.pipeline('text-generation', model=model_path); outputs = pipeline(messages, max_new_tokens=128)
플랫폼을 통한 액세스: 또는 모델 상호 작용을 위한 사용자 인터페이스를 제공하는 Azure AI Foundry, Hugging Face 또는 NVIDIA API Catalog 플랫폼을 통해 모델에 액세스합니다.
선택 사항: 미세 조정: 사용자 정의를 위해 Azure Machine Learning 또는 Azure AI Foundry의 노코드 미세 조정 기능을 사용하여 특정 사용 사례에 맞게 모델을 조정합니다.
배포: 프로덕션 사용을 위해 Azure AI 서비스를 사용하여 모델을 배포하거나 Microsoft Olive를 사용하여 최적화된 엣지/장치 배포를 위해 ONNX 런타임을 사용합니다.
Phi-4-multimodal and Phi-4-mini 자주 묻는 질문
마이크로소프트의 소형 언어 모델(SLM)인 Phi 제품군에서 가장 최신 모델입니다. Phi-4-multimodal은 음성, 시각, 텍스트를 동시에 처리할 수 있는 56억 개의 파라미터를 가진 멀티모달 모델이며, Phi-4-mini는 텍스트 기반 작업에 뛰어난 38억 개의 파라미터를 가진 모델입니다.
Phi-4-multimodal and Phi-4-mini 웹사이트 분석
Phi-4-multimodal and Phi-4-mini 트래픽 및 순위
7.1M
월간 방문자 수
-
전 세계 순위
-
카테고리 순위
트래픽 트렌드: Jun 2024-Apr 2025
Phi-4-multimodal and Phi-4-mini 사용자 인사이트
00:01:53
평균 방문 시간
1.93
방문당 페이지 수
61.28%
사용자 이탈률
Phi-4-multimodal and Phi-4-mini의 상위 지역
US: 20.81%
IN: 9.88%
JP: 5.66%
GB: 4.2%
BR: 4.2%
Others: 55.24%