Phi-4-multimodal的主要功能是什么？

Phi-4-multimodal可以同时处理文本、视觉和语音输入。它支持多语言理解、强大的推理、编码，甚至可以直接从图像生成代码。它在语音识别、语音翻译、文档理解和视觉科学推理等任务中表现出色。

Phi-4-mini的主要优势是什么？

Phi-4-mini擅长基于文本的任务，包括推理、数学、编码、指令遵循和函数调用。它支持高达128,000个token的序列，并以紧凑的形式提供高精度和可扩展性。尽管它的体积较小，但在许多基于文本的任务中，它的性能优于更大的模型。

这些模型在哪里可用？

这两种模型都可以在Azure AI Foundry、Hugging Face、NVIDIA API Catalog、GitHub Models和Ollama上找到。

这些模型可以在计算受限的环境中使用吗？

是的，由于它们的体积较小，Phi-4-mini和Phi-4-multimodal都可以在计算受限的推理环境中使用，并且可以部署在边缘设备上。它们可以通过ONNX Runtime进一步优化，以实现跨平台可用性。

这些模型可以定制吗？

是的，它们的小尺寸使得微调或定制更容易且更经济。微软提供了成功微调场景的示例，例如语音翻译和医学视觉问答，详细信息可在GitHub上的Phi Cookbook中找到。

Phi-4-multimodal and Phi-4-mini

WebsiteFreemiumAI Code Assistant

微软的 Phi-4-multimodal（56 亿个参数）和 Phi-4-mini（38 亿个参数）是新的小型语言模型，可提供强大的多模态处理和高效的基于文本的功能，同时需要最少的计算资源。

访问网站

推广此工具

https://azure.microsoft.com/en-us/blog/empowering-innovation-the-next-generation-of-the-phi-family?ref=aipure&utm_source=aipure

概述
分析
替代方案

产品信息

更新于：2025年07月16日

Phi-4-multimodal and Phi-4-mini 月度流量趋势

Phi-4-multimodal 和 Phi-4-mini 的流量下降了 2.6%，减少了 179,106 次访问。由于缺乏直接的产品更新，以及微软围绕其 Azure AI Foundry 和 ChatGPT 集成的重大公告，可能分散了用户对 Phi-4 的注意力。

查看历史流量

什么是 Phi-4-multimodal and Phi-4-mini

Phi-4-multimodal 和 Phi-4-mini 是微软 Phi 系列小型语言模型 (SLM) 的最新成员，旨在通过先进的 AI 功能增强开发者的能力，同时保持效率。Phi-4-multimodal 是微软首个多模态语言模型，可将语音、视觉和文本处理无缝集成到单个统一架构中，而 Phi-4-mini 则擅长基于文本的任务，如推理、数学、编码和指令遵循。这两种模型现在都可通过 Azure AI Foundry、Hugging Face 和 NVIDIA API Catalog 获得，使开发者可以访问它们来构建创新的 AI 应用程序。

Phi-4-multimodal and Phi-4-mini 的主要功能

Phi-4-multimodal（56亿参数）和 Phi-4-mini（38亿参数）是微软最新的小型语言模型，专为高效AI部署而设计。Phi-4-multimodal 独特地在单一架构中集成了语音、视觉和文本处理，而 Phi-4-mini 则擅长基于文本的任务，如推理、数学和编码。这两种模型都针对计算受限的环境进行了优化，可以跨云、边缘和移动设备进行部署，以较低的计算要求提供高性能。

统一的多模态处理: Phi-4-multimodal 在单个模型中使用混合 LoRA 技术集成了语音、视觉和文本处理，从而能够同时处理多种输入类型而不会降低性能

紧凑而强大: 尽管尺寸较小，但两种模型都保持了较高的性能水平，其中 Phi-4-mini 在基于文本的任务中优于较大的模型，而 Phi-4-multimodal 的能力与资源密集型竞争对手相匹配

跨平台部署: 可以使用 ONNX Runtime 优化这两种模型以适应各种平台，从而能够在边缘设备、移动电话和云环境中进行部署，并实现高效的资源利用

扩展的上下文处理: 支持处理多达 128,000 个 token，从而能够分析大型文档和复杂上下文，同时保持效率

Phi-4-multimodal and Phi-4-mini 的使用场景

汽车智能: 集成到车辆系统中，用于语音命令处理、驾驶员监控、手势识别和实时导航辅助，可在线和离线工作

医疗保健应用: 通过视觉分析、患者历史总结和快速诊断支持来支持医疗诊断，同时在计算受限的环境中保持数据隐私

智能设备集成: 嵌入到智能手机和个人设备中，用于实时语言翻译、图像分析和低延迟的智能个人助理

金融服务: 自动执行复杂的金融计算，生成多语言报告，并翻译金融文档，同时保持计算任务的高精度

优点

以小模型尺寸实现高效的资源利用，同时保持高性能

跨不同计算环境的通用部署选项

以紧凑的形式实现强大的推理和多模态处理能力

缺点

与 Gemini-2.0-Flash 等大型模型相比，语音 QA 任务的性能差距

对于小型企业来说，实施和集成可能具有挑战性

与大型语言模型相比，知识保留能力有限

如何使用 Phi-4-multimodal and Phi-4-mini

安装所需的依赖项: 安装必要的软件包：pip install transformers==4.48.2 flash_attn==2.7.4.post1 torch==2.6.0 accelerate==1.3.0 soundfile==0.13.1 pillow==11.1.0 scipy==1.15.2 torchvision==0.21.0 backoff==2.2.1 peft==0.13.2

导入所需的库: 导入必要的 Python 库：import requests, torch, os, io, PIL, soundfile, transformers

加载模型: 使用以下代码加载模型和处理器：model_path = 'microsoft/Phi-4-multimodal-instruct'; processor = AutoProcessor.from_pretrained(model_path); model = AutoModelForCausalLM.from_pretrained(model_path)

准备输入: 根据类型（文本、图像或音频）格式化您的输入。对于文本，使用带有系统和用户消息的聊天格式。对于图像/音频，请确保它们采用支持的格式

生成输出: 使用管道生成输出：pipeline = transformers.pipeline('text-generation', model=model_path); outputs = pipeline(messages, max_new_tokens=128)

通过平台访问: 或者，通过 Azure AI Foundry、Hugging Face 或 NVIDIA API Catalog 平台访问模型，这些平台提供用于模型交互的用户界面

可选：微调: 对于自定义，请使用 Azure Machine Learning 或 Azure AI Foundry 的无代码微调功能来调整模型以适应特定用例

部署: 使用 Azure AI 服务部署模型以供生产使用，或使用 ONNX Runtime 进行边缘/设备部署，并使用 Microsoft Olive 进行优化