Phi-4-multimodal의 주요 기능은 무엇인가요?

Phi-4-multimodal은 텍스트, 시각, 음성 입력을 동시에 처리할 수 있습니다. 다국어 이해, 강력한 추론, 인코딩을 지원하며 이미지에서 직접 코드를 생성할 수도 있습니다. 음성 인식, 음성 번역, 문서 이해, 시각 과학 추론과 같은 작업에서 강력한 성능을 제공합니다.

Phi-4-mini의 주요 강점은 무엇인가요?

Phi-4-mini는 추론, 수학, 코딩, 명령어 따르기, 함수 호출을 포함한 텍스트 기반 작업에 뛰어납니다. 최대 128,000개의 토큰 시퀀스를 지원하며 컴팩트한 형태로 높은 정확도와 확장성을 제공합니다. 작은 크기에도 불구하고 많은 텍스트 기반 작업에서 더 큰 모델보다 뛰어난 성능을 보입니다.

이러한 모델은 어디에서 사용할 수 있나요?

두 모델 모두 Azure AI Foundry, Hugging Face, NVIDIA API Catalog, GitHub Models 및 Ollama에서 사용할 수 있습니다.

이러한 모델을 컴퓨팅 제약이 있는 환경에서 사용할 수 있나요?

예, 작은 크기 덕분에 Phi-4-mini와 Phi-4-multimodal 모두 컴퓨팅 제약이 있는 추론 환경에서 사용할 수 있으며 에지 장치에 배포할 수 있습니다. ONNX Runtime으로 추가 최적화하여 크로스 플랫폼 가용성을 확보할 수도 있습니다.

이러한 모델을 사용자 정의할 수 있나요?

예, 작은 크기로 인해 미세 조정 또는 사용자 정의가 더 쉽고 저렴합니다. Microsoft는 GitHub의 Phi Cookbook에서 자세한 정보를 확인할 수 있는 음성 번역 및 의료 시각 질의 응답과 같은 성공적인 미세 조정 시나리오의 예를 제공합니다.

Phi-4-multimodal and Phi-4-mini

WebsiteFreemiumAI Code Assistant

Microsoft의 Phi-4-multimodal(56억 개의 매개변수) 및 Phi-4-mini(38억 개의 매개변수)는 최소한의 컴퓨팅 리소스를 필요로 하면서 강력한 멀티모달 처리 및 효율적인 텍스트 기반 기능을 제공하는 새로운 소형 언어 모델입니다.

웹사이트 방문

이 도구 광고하기

https://azure.microsoft.com/en-us/blog/empowering-innovation-the-next-generation-of-the-phi-family?ref=aipure&utm_source=aipure

개요
분석
대안

제품 정보

업데이트됨:Jul 16, 2025

Phi-4-multimodal and Phi-4-mini 월간 트래픽 동향

Phi-4-multimodal과 Phi-4-mini는 트래픽이 2.6% 감소했으며, 방문자 수가 179,106명 줄었습니다. 직접적인 제품 업데이트가 없었고 Microsoft의 Azure AI Foundry와 ChatGPT 통합에 관한 중요한 발표들로 인해 사용자들의 관심이 Phi-4에서 멀어졌을 수 있습니다.

과거 트래픽 보기

Phi-4-multimodal and Phi-4-mini이란?

Phi-4-multimodal 및 Phi-4-mini는 효율성을 유지하면서 고급 AI 기능을 통해 개발자에게 권한을 부여하도록 설계된 Microsoft의 소형 언어 모델(SLM)인 Phi 제품군에 새로 추가된 모델입니다. Phi-4-multimodal은 음성, 시각 및 텍스트 처리를 단일 통합 아키텍처에 원활하게 통합하는 Microsoft의 최초 멀티모달 언어 모델인 반면, Phi-4-mini는 추론, 수학, 코딩 및 명령 추적과 같은 텍스트 기반 작업에 뛰어납니다. 두 모델 모두 이제 Azure AI Foundry, Hugging Face 및 NVIDIA API Catalog를 통해 사용할 수 있으므로 개발자가 혁신적인 AI 애플리케이션을 구축할 수 있습니다.

Phi-4-multimodal and Phi-4-mini의 주요 기능

Phi-4-multimodal(56억 개의 파라미터)과 Phi-4-mini(38억 개의 파라미터)는 효율적인 AI 배포를 위해 설계된 Microsoft의 최신 소형 언어 모델입니다. Phi-4-multimodal은 단일 아키텍처에서 음성, 시각, 텍스트 처리를 고유하게 통합하는 반면, Phi-4-mini는 추론, 수학, 코딩과 같은 텍스트 기반 작업에 탁월합니다. 두 모델 모두 컴퓨팅 제약 환경에 최적화되어 있으며 클라우드, 에지, 모바일 장치에 배포할 수 있어 낮은 컴퓨팅 요구 사항으로 높은 성능을 제공합니다.

통합 멀티모달 처리: Phi-4-multimodal은 mixture-of-LoRAs 기술을 사용하여 단일 모델에서 음성, 시각, 텍스트 처리를 통합하여 성능 저하 없이 여러 입력 유형을 동시에 처리할 수 있습니다.

작지만 강력함: 두 모델 모두 크기가 더 작음에도 불구하고 높은 성능 수준을 유지하며, Phi-4-mini는 텍스트 기반 작업에서 더 큰 모델보다 성능이 뛰어나고 Phi-4-multimodal은 더 많은 리소스를 사용하는 경쟁사의 기능과 일치합니다.

크로스 플랫폼 배포: 두 모델 모두 ONNX Runtime을 사용하여 다양한 플랫폼에 최적화할 수 있으므로 효율적인 리소스 활용으로 에지 장치, 휴대폰 및 클라우드 환경에 배포할 수 있습니다.

확장된 컨텍스트 처리: 최대 128,000개의 토큰 처리를 지원하여 효율성을 유지하면서 대용량 문서 및 복잡한 컨텍스트 분석을 가능하게 합니다.

Phi-4-multimodal and Phi-4-mini의 사용 사례

자동차 인텔리전스: 온라인 및 오프라인에서 모두 작동하는 음성 명령 처리, 운전자 모니터링, 제스처 인식, 실시간 내비게이션 지원을 위한 차량 시스템 통합

의료 애플리케이션: 컴퓨팅 제약 환경에서 데이터 개인 정보를 유지하면서 시각적 분석, 환자 기록 요약, 신속한 진단 지원을 통한 의료 진단 지원

스마트 장치 통합: 낮은 대기 시간으로 실시간 언어 번역, 이미지 분석, 지능형 개인 비서를 위한 스마트폰 및 개인 장치에 임베딩

금융 서비스: 복잡한 금융 계산 자동화, 다국어 보고서 생성, 계산 작업에서 높은 정확도를 유지하면서 금융 문서 번역

장점

높은 성능을 유지하면서 작은 모델 크기로 효율적인 리소스 활용

다양한 컴퓨팅 환경에서 다양한 배포 옵션

컴팩트한 형태의 강력한 추론 및 멀티모달 처리 기능

단점

Gemini-2.0-Flash와 같은 더 큰 모델에 비해 음성 QA 작업에서 성능 격차

소규모 기업이 구현하고 통합하는 데 어려움이 있을 수 있습니다.

더 큰 언어 모델에 비해 제한된 지식 보존 용량

Phi-4-multimodal and Phi-4-mini 사용 방법

필수 종속성 설치: 필요한 패키지 설치: pip install transformers==4.48.2 flash_attn==2.7.4.post1 torch==2.6.0 accelerate==1.3.0 soundfile==0.13.1 pillow==11.1.0 scipy==1.15.2 torchvision==0.21.0 backoff==2.2.1 peft==0.13.2

필수 라이브러리 가져오기: 필요한 Python 라이브러리 가져오기: import requests, torch, os, io, PIL, soundfile, transformers

모델 로드: 다음 명령을 사용하여 모델 및 프로세서 로드: model_path = 'microsoft/Phi-4-multimodal-instruct'; processor = AutoProcessor.from_pretrained(model_path); model = AutoModelForCausalLM.from_pretrained(model_path)

입력 준비: 텍스트, 이미지 또는 오디오 유형에 따라 입력을 포맷합니다. 텍스트의 경우 시스템 및 사용자 메시지와 함께 채팅 형식을 사용합니다. 이미지/오디오의 경우 지원되는 형식인지 확인합니다.

출력 생성: 파이프라인을 사용하여 출력 생성: pipeline = transformers.pipeline('text-generation', model=model_path); outputs = pipeline(messages, max_new_tokens=128)

플랫폼을 통한 액세스: 또는 모델 상호 작용을 위한 사용자 인터페이스를 제공하는 Azure AI Foundry, Hugging Face 또는 NVIDIA API Catalog 플랫폼을 통해 모델에 액세스합니다.

선택 사항: 미세 조정: 사용자 정의를 위해 Azure Machine Learning 또는 Azure AI Foundry의 노코드 미세 조정 기능을 사용하여 특정 사용 사례에 맞게 모델을 조정합니다.

배포: 프로덕션 사용을 위해 Azure AI 서비스를 사용하여 모델을 배포하거나 Microsoft Olive를 사용하여 최적화된 엣지/장치 배포를 위해 ONNX 런타임을 사용합니다.

Phi-4-multimodal and Phi-4-mini 자주 묻는 질문

마이크로소프트의 소형 언어 모델(SLM)인 Phi 제품군에서 가장 최신 모델입니다. Phi-4-multimodal은 음성, 시각, 텍스트를 동시에 처리할 수 있는 56억 개의 파라미터를 가진 멀티모달 모델이며, Phi-4-mini는 텍스트 기반 작업에 뛰어난 38억 개의 파라미터를 가진 모델입니다.