
Phi-4-multimodal and Phi-4-mini
微軟的 Phi-4-multimodal(56 億個參數)和 Phi-4-mini(38 億個參數)是新的小型語言模型,可提供強大的多模態處理和高效的基於文本的功能,同時需要最少的計算資源。
https://azure.microsoft.com/en-us/blog/empowering-innovation-the-next-generation-of-the-phi-family?ref=aipure&utm_source=aipure

產品資訊
更新時間:2025年05月16日
Phi-4-multimodal and Phi-4-mini 每月流量趨勢
Phi-4-multimodal 和 Phi-4-mini 的流量下降了 7.4%,減少了 563K 次訪問。這可能是由於缺乏最近的產品更新,以及提供進階人工智能功能的 Microsoft Copilot in Azure 的推出,可能吸引了用戶轉移。
什麼是 Phi-4-multimodal and Phi-4-mini
Phi-4-multimodal 和 Phi-4-mini 是微軟 Phi 系列小型語言模型 (SLM) 的最新成員,旨在通過先進的 AI 功能賦能開發人員,同時保持效率。Phi-4-multimodal 是微軟首個多模態語言模型,可將語音、視覺和文本處理無縫集成到單個統一架構中,而 Phi-4-mini 在推理、數學、編碼和指令遵循等基於文本的任務中表現出色。這兩個模型現在都可通過 Azure AI Foundry、Hugging Face 和 NVIDIA API Catalog 獲得,使開發人員可以訪問它們來構建創新的 AI 應用程式。
Phi-4-multimodal and Phi-4-mini 的主要功能
Phi-4-multimodal (56億參數) 和 Phi-4-mini (38億參數) 是微軟最新的小型語言模型,專為高效AI部署而設計。Phi-4-multimodal 獨特地在單一架構中整合了語音、視覺和文本處理,而 Phi-4-mini 則擅長基於文本的任務,如推理、數學和編碼。這兩個模型都針對計算受限的環境進行了優化,並且可以跨雲端、邊緣和行動裝置進行部署,以較低的計算要求提供高效能。
統一多模態處理: Phi-4-multimodal 使用混合 LoRA 技術在單一模型中整合了語音、視覺和文本處理,無需降低效能即可同時處理多種類型的輸入
精巧而強大: 儘管尺寸較小,但這兩個模型都保持了高效能水準,其中 Phi-4-mini 在基於文本的任務中優於較大型的模型,而 Phi-4-multimodal 的能力與資源密集程度更高的競爭對手相匹配
跨平台部署: 這兩個模型都可以使用 ONNX Runtime 針對各種平台進行優化,從而可以在邊緣裝置、手機和雲端環境中進行部署,並有效利用資源
擴展上下文處理: 支援處理多達 128,000 個 token,從而可以分析大型文件和複雜的上下文,同時保持效率
Phi-4-multimodal and Phi-4-mini 的使用案例
汽車智慧: 整合到車輛系統中,用於語音指令處理、駕駛員監控、手勢識別和即時導航輔助,可線上和離線運作
醫療保健應用: 透過視覺分析、病患歷史摘要和快速診斷支援來支援醫療診斷,同時在計算受限的環境中保持資料隱私
智慧裝置整合: 嵌入到智慧型手機和個人裝置中,以低延遲實現即時語言翻譯、圖像分析和智慧個人助理
金融服務: 自動化複雜的金融計算、產生多語報告和翻譯金融文件,同時在計算任務中保持高準確性
優點
以小型模型尺寸實現高效的資源利用,同時保持高效能
跨不同計算環境的多功能部署選項
以精巧的形式實現強大的推理和多模態處理能力
缺點
與 Gemini-2.0-Flash 等較大型模型相比,在語音 QA 任務中的效能差距
對於較小的企業來說,實施和整合可能具有挑戰性
與較大型語言模型相比,知識保留能力有限
如何使用 Phi-4-multimodal and Phi-4-mini
安裝所需的依賴項: 安裝必要的套件:pip install transformers==4.48.2 flash_attn==2.7.4.post1 torch==2.6.0 accelerate==1.3.0 soundfile==0.13.1 pillow==11.1.0 scipy==1.15.2 torchvision==0.21.0 backoff==2.2.1 peft==0.13.2
導入所需的庫: 導入必要的 Python 庫:import requests, torch, os, io, PIL, soundfile, transformers
加載模型: 使用以下命令加載模型和處理器:model_path = 'microsoft/Phi-4-multimodal-instruct'; processor = AutoProcessor.from_pretrained(model_path); model = AutoModelForCausalLM.from_pretrained(model_path)
準備輸入: 根據類型(文本、圖像或音訊)格式化您的輸入。對於文本,使用帶有系統和用戶消息的聊天格式。對於圖像/音訊,請確保它們採用支持的格式
生成輸出: 使用管道生成輸出:pipeline = transformers.pipeline('text-generation', model=model_path); outputs = pipeline(messages, max_new_tokens=128)
通過平台訪問: 或者,通過 Azure AI Foundry、Hugging Face 或 NVIDIA API Catalog 平台訪問模型,這些平台提供用於模型交互的用戶界面
可選:微調: 對於自定義,請使用 Azure Machine Learning 或 Azure AI Foundry 的無代碼微調功能來調整模型以適應特定用例
部署: 使用 Azure AI 服務部署模型以供生產使用,或使用 ONNX Runtime 進行邊緣/設備部署,並使用 Microsoft Olive 進行優化
Phi-4-multimodal and Phi-4-mini 常見問題
它們是微軟 Phi 系列小型語言模型 (SLM) 中最新的模型。Phi-4-multimodal 是一個 56 億參數的多模態模型,可以同時處理語音、視覺和文字,而 Phi-4-mini 是一個 38 億參數的模型,擅長基於文字的任務。
Phi-4-multimodal and Phi-4-mini 網站分析
Phi-4-multimodal and Phi-4-mini 流量和排名
7.1M
每月訪問量
-
全球排名
-
類別排名
流量趨勢:Jun 2024-Apr 2025
Phi-4-multimodal and Phi-4-mini 用戶洞察
00:01:53
平均訪問時長
1.93
每次訪問的頁面數
61.28%
用戶跳出率
Phi-4-multimodal and Phi-4-mini 的主要地區
US: 20.81%
IN: 9.88%
JP: 5.66%
GB: 4.2%
BR: 4.2%
Others: 55.24%