Phi-4-multimodal 的主要功能是什麼？

Phi-4-multimodal 可以同時處理文字、視覺和語音輸入。它支援多語言理解、強大的推理、編碼，甚至可以直接從圖像生成程式碼。它在語音辨識、語音翻譯、文件理解和視覺科學推理等任務中表現出色。

Phi-4-mini 的主要優勢是什麼？

Phi-4-mini 擅長基於文字的任務，包括推理、數學、編碼、遵循指令和函數呼叫。它支援高達 128,000 個 token 的序列，並以緊湊的形式提供高準確性和可擴展性。儘管尺寸較小，但在許多基於文字的任務中，它的效能優於較大型的模型。

這些模型在哪裡可以找到？

這兩個模型都可以在 Azure AI Foundry、Hugging Face、NVIDIA API Catalog、GitHub Models 和 Ollama 上找到。

這些模型可以在計算受限的環境中使用嗎？

是的，由於它們的尺寸較小，Phi-4-mini 和 Phi-4-multimodal 都可以用於計算受限的推論環境中，並且可以部署在邊緣設備上。它們可以使用 ONNX Runtime 進一步優化，以實現跨平台可用性。

這些模型可以客製化嗎？

是的，它們的小尺寸使得微調或客製化更容易且更經濟實惠。微軟提供了成功微調場景的範例，例如語音翻譯和醫療視覺問答，詳細資訊可在 GitHub 上的 Phi Cookbook 中找到。

Phi-4-multimodal and Phi-4-mini

WebsiteFreemiumAI Code Assistant

微軟的 Phi-4-multimodal（56 億個參數）和 Phi-4-mini（38 億個參數）是新的小型語言模型，可提供強大的多模態處理和高效的基於文本的功能，同時需要最少的計算資源。

訪問網站

宣傳此工具

https://azure.microsoft.com/en-us/blog/empowering-innovation-the-next-generation-of-the-phi-family?ref=aipure&utm_source=aipure

概覽
分析
替代方案

產品資訊

更新時間：2025年07月16日

Phi-4-multimodal and Phi-4-mini 每月流量趨勢

Phi-4-multimodal 和 Phi-4-mini 的流量下降了 2.6%，減少了 179,106 次訪問。由於缺乏直接的產品更新，加上微軟在 Azure AI Foundry 和 ChatGPT 整合方面的重大公告，可能分散了用戶對 Phi-4 的注意力。

查看歷史流量

什麼是 Phi-4-multimodal and Phi-4-mini

Phi-4-multimodal 和 Phi-4-mini 是微軟 Phi 系列小型語言模型 (SLM) 的最新成員，旨在通過先進的 AI 功能賦能開發人員，同時保持效率。Phi-4-multimodal 是微軟首個多模態語言模型，可將語音、視覺和文本處理無縫集成到單個統一架構中，而 Phi-4-mini 在推理、數學、編碼和指令遵循等基於文本的任務中表現出色。這兩個模型現在都可通過 Azure AI Foundry、Hugging Face 和 NVIDIA API Catalog 獲得，使開發人員可以訪問它們來構建創新的 AI 應用程式。

Phi-4-multimodal and Phi-4-mini 的主要功能

Phi-4-multimodal (56億參數) 和 Phi-4-mini (38億參數) 是微軟最新的小型語言模型，專為高效AI部署而設計。Phi-4-multimodal 獨特地在單一架構中整合了語音、視覺和文本處理，而 Phi-4-mini 則擅長基於文本的任務，如推理、數學和編碼。這兩個模型都針對計算受限的環境進行了優化，並且可以跨雲端、邊緣和行動裝置進行部署，以較低的計算要求提供高效能。

統一多模態處理: Phi-4-multimodal 使用混合 LoRA 技術在單一模型中整合了語音、視覺和文本處理，無需降低效能即可同時處理多種類型的輸入

精巧而強大: 儘管尺寸較小，但這兩個模型都保持了高效能水準，其中 Phi-4-mini 在基於文本的任務中優於較大型的模型，而 Phi-4-multimodal 的能力與資源密集程度更高的競爭對手相匹配

跨平台部署: 這兩個模型都可以使用 ONNX Runtime 針對各種平台進行優化，從而可以在邊緣裝置、手機和雲端環境中進行部署，並有效利用資源

擴展上下文處理: 支援處理多達 128,000 個 token，從而可以分析大型文件和複雜的上下文，同時保持效率

Phi-4-multimodal and Phi-4-mini 的使用案例

汽車智慧: 整合到車輛系統中，用於語音指令處理、駕駛員監控、手勢識別和即時導航輔助，可線上和離線運作

醫療保健應用: 透過視覺分析、病患歷史摘要和快速診斷支援來支援醫療診斷，同時在計算受限的環境中保持資料隱私

智慧裝置整合: 嵌入到智慧型手機和個人裝置中，以低延遲實現即時語言翻譯、圖像分析和智慧個人助理

金融服務: 自動化複雜的金融計算、產生多語報告和翻譯金融文件，同時在計算任務中保持高準確性

優點

以小型模型尺寸實現高效的資源利用，同時保持高效能

跨不同計算環境的多功能部署選項

以精巧的形式實現強大的推理和多模態處理能力

缺點

與 Gemini-2.0-Flash 等較大型模型相比，在語音 QA 任務中的效能差距

對於較小的企業來說，實施和整合可能具有挑戰性

與較大型語言模型相比，知識保留能力有限

如何使用 Phi-4-multimodal and Phi-4-mini

安裝所需的依賴項: 安裝必要的套件：pip install transformers==4.48.2 flash_attn==2.7.4.post1 torch==2.6.0 accelerate==1.3.0 soundfile==0.13.1 pillow==11.1.0 scipy==1.15.2 torchvision==0.21.0 backoff==2.2.1 peft==0.13.2

導入所需的庫: 導入必要的 Python 庫：import requests, torch, os, io, PIL, soundfile, transformers

加載模型: 使用以下命令加載模型和處理器：model_path = 'microsoft/Phi-4-multimodal-instruct'; processor = AutoProcessor.from_pretrained(model_path); model = AutoModelForCausalLM.from_pretrained(model_path)

準備輸入: 根據類型（文本、圖像或音訊）格式化您的輸入。對於文本，使用帶有系統和用戶消息的聊天格式。對於圖像/音訊，請確保它們採用支持的格式

生成輸出: 使用管道生成輸出：pipeline = transformers.pipeline('text-generation', model=model_path); outputs = pipeline(messages, max_new_tokens=128)

通過平台訪問: 或者，通過 Azure AI Foundry、Hugging Face 或 NVIDIA API Catalog 平台訪問模型，這些平台提供用於模型交互的用戶界面

可選：微調: 對於自定義，請使用 Azure Machine Learning 或 Azure AI Foundry 的無代碼微調功能來調整模型以適應特定用例

部署: 使用 Azure AI 服務部署模型以供生產使用，或使用 ONNX Runtime 進行邊緣/設備部署，並使用 Microsoft Olive 進行優化