
Phi-4-multimodal and Phi-4-mini
微软的 Phi-4-multimodal(56 亿个参数)和 Phi-4-mini(38 亿个参数)是新的小型语言模型,可提供强大的多模态处理和高效的基于文本的功能,同时需要最少的计算资源。
https://azure.microsoft.com/en-us/blog/empowering-innovation-the-next-generation-of-the-phi-family?ref=aipure&utm_source=aipure

产品信息
更新于:2025年05月16日
Phi-4-multimodal and Phi-4-mini 月度流量趋势
Phi-4-multimodal 和 Phi-4-mini 的流量下降了 7.4%,访问量减少了 563K。这可能是由于缺乏最近的产品更新,以及提供高级人工智能功能的 Microsoft Copilot in Azure 的推出,可能吸引了用户转移。
什么是 Phi-4-multimodal and Phi-4-mini
Phi-4-multimodal 和 Phi-4-mini 是微软 Phi 系列小型语言模型 (SLM) 的最新成员,旨在通过先进的 AI 功能增强开发者的能力,同时保持效率。Phi-4-multimodal 是微软首个多模态语言模型,可将语音、视觉和文本处理无缝集成到单个统一架构中,而 Phi-4-mini 则擅长基于文本的任务,如推理、数学、编码和指令遵循。这两种模型现在都可通过 Azure AI Foundry、Hugging Face 和 NVIDIA API Catalog 获得,使开发者可以访问它们来构建创新的 AI 应用程序。
Phi-4-multimodal and Phi-4-mini 的主要功能
Phi-4-multimodal(56亿参数)和 Phi-4-mini(38亿参数)是微软最新的小型语言模型,专为高效AI部署而设计。Phi-4-multimodal 独特地在单一架构中集成了语音、视觉和文本处理,而 Phi-4-mini 则擅长基于文本的任务,如推理、数学和编码。这两种模型都针对计算受限的环境进行了优化,可以跨云、边缘和移动设备进行部署,以较低的计算要求提供高性能。
统一的多模态处理: Phi-4-multimodal 在单个模型中使用混合 LoRA 技术集成了语音、视觉和文本处理,从而能够同时处理多种输入类型而不会降低性能
紧凑而强大: 尽管尺寸较小,但两种模型都保持了较高的性能水平,其中 Phi-4-mini 在基于文本的任务中优于较大的模型,而 Phi-4-multimodal 的能力与资源密集型竞争对手相匹配
跨平台部署: 可以使用 ONNX Runtime 优化这两种模型以适应各种平台,从而能够在边缘设备、移动电话和云环境中进行部署,并实现高效的资源利用
扩展的上下文处理: 支持处理多达 128,000 个 token,从而能够分析大型文档和复杂上下文,同时保持效率
Phi-4-multimodal and Phi-4-mini 的使用场景
汽车智能: 集成到车辆系统中,用于语音命令处理、驾驶员监控、手势识别和实时导航辅助,可在线和离线工作
医疗保健应用: 通过视觉分析、患者历史总结和快速诊断支持来支持医疗诊断,同时在计算受限的环境中保持数据隐私
智能设备集成: 嵌入到智能手机和个人设备中,用于实时语言翻译、图像分析和低延迟的智能个人助理
金融服务: 自动执行复杂的金融计算,生成多语言报告,并翻译金融文档,同时保持计算任务的高精度
优点
以小模型尺寸实现高效的资源利用,同时保持高性能
跨不同计算环境的通用部署选项
以紧凑的形式实现强大的推理和多模态处理能力
缺点
与 Gemini-2.0-Flash 等大型模型相比,语音 QA 任务的性能差距
对于小型企业来说,实施和集成可能具有挑战性
与大型语言模型相比,知识保留能力有限
如何使用 Phi-4-multimodal and Phi-4-mini
安装所需的依赖项: 安装必要的软件包:pip install transformers==4.48.2 flash_attn==2.7.4.post1 torch==2.6.0 accelerate==1.3.0 soundfile==0.13.1 pillow==11.1.0 scipy==1.15.2 torchvision==0.21.0 backoff==2.2.1 peft==0.13.2
导入所需的库: 导入必要的 Python 库:import requests, torch, os, io, PIL, soundfile, transformers
加载模型: 使用以下代码加载模型和处理器:model_path = 'microsoft/Phi-4-multimodal-instruct'; processor = AutoProcessor.from_pretrained(model_path); model = AutoModelForCausalLM.from_pretrained(model_path)
准备输入: 根据类型(文本、图像或音频)格式化您的输入。对于文本,使用带有系统和用户消息的聊天格式。对于图像/音频,请确保它们采用支持的格式
生成输出: 使用管道生成输出:pipeline = transformers.pipeline('text-generation', model=model_path); outputs = pipeline(messages, max_new_tokens=128)
通过平台访问: 或者,通过 Azure AI Foundry、Hugging Face 或 NVIDIA API Catalog 平台访问模型,这些平台提供用于模型交互的用户界面
可选:微调: 对于自定义,请使用 Azure Machine Learning 或 Azure AI Foundry 的无代码微调功能来调整模型以适应特定用例
部署: 使用 Azure AI 服务部署模型以供生产使用,或使用 ONNX Runtime 进行边缘/设备部署,并使用 Microsoft Olive 进行优化
Phi-4-multimodal and Phi-4-mini 常见问题
它们是微软Phi系列小型语言模型(SLM)中的最新模型。Phi-4-multimodal是一个56亿参数的多模态模型,可以同时处理语音、视觉和文本,而Phi-4-mini是一个38亿参数的模型,擅长基于文本的任务。
Phi-4-multimodal and Phi-4-mini 网站分析
Phi-4-multimodal and Phi-4-mini 流量和排名
7.1M
每月访问量
-
全球排名
-
类别排名
流量趋势:Jun 2024-Apr 2025
Phi-4-multimodal and Phi-4-mini 用户洞察
00:01:53
平均访问时长
1.93
每次访问页数
61.28%
用户跳出率
Phi-4-multimodal and Phi-4-mini 的热门地区
US: 20.81%
IN: 9.88%
JP: 5.66%
GB: 4.2%
BR: 4.2%
Others: 55.24%