
Phi-4-multimodal and Phi-4-mini
Phi-4-multimodal (5,6 млрд параметров) и Phi-4-mini (3,8 млрд параметров) от Microsoft — это новые малые языковые модели, которые обеспечивают мощную мультимодальную обработку и эффективные текстовые возможности, требуя при этом минимальных вычислительных ресурсов.
https://azure.microsoft.com/en-us/blog/empowering-innovation-the-next-generation-of-the-phi-family?ref=aipure&utm_source=aipure

Информация о продукте
Обновлено:16/07/2025
Тенденции ежемесячного трафика Phi-4-multimodal and Phi-4-mini
Phi-4-multimodal и Phi-4-mini испытали снижение трафика на 2,6%, что составило 179 106 меньше посещений. Отсутствие прямых обновлений продукта и значимые анонсы от Microsoft, связанные с Azure AI Foundry и интеграцией ChatGPT, возможно, отвлекли внимание пользователей от Phi-4.
Что такое Phi-4-multimodal and Phi-4-mini
Phi-4-multimodal и Phi-4-mini — новейшие дополнения к семейству малых языковых моделей (SLM) Microsoft Phi, разработанные для расширения возможностей разработчиков с помощью передовых возможностей искусственного интеллекта при сохранении эффективности. Phi-4-multimodal — первая мультимодальная языковая модель Microsoft, которая органично объединяет обработку речи, зрения и текста в единую унифицированную архитектуру, а Phi-4-mini превосходно справляется с текстовыми задачами, такими как рассуждения, математика, кодирование и следование инструкциям. Обе модели теперь доступны через Azure AI Foundry, Hugging Face и каталог NVIDIA API, что делает их доступными для разработчиков для создания инновационных приложений искусственного интеллекта.
Ключевые особенности Phi-4-multimodal and Phi-4-mini
Phi-4-multimodal (5.6B параметров) и Phi-4-mini (3.8B параметров) - это новейшие небольшие языковые модели Microsoft, предназначенные для эффективного развертывания ИИ. Phi-4-multimodal уникальным образом объединяет обработку речи, зрения и текста в единой архитектуре, в то время как Phi-4-mini превосходно справляется с текстовыми задачами, такими как рассуждения, математика и кодирование. Обе модели оптимизированы для сред с ограниченными вычислительными ресурсами и могут быть развернуты в облаке, на периферии и на мобильных устройствах, предлагая высокую производительность при более низких вычислительных требованиях.
Унифицированная мультимодальная обработка: Phi-4-multimodal объединяет обработку речи, зрения и текста в единой модели с использованием технологии mixture-of-LoRAs, обеспечивая одновременную обработку нескольких типов входных данных без снижения производительности
Компактный, но мощный: Несмотря на меньший размер, обе модели поддерживают высокие уровни производительности, при этом Phi-4-mini превосходит более крупные модели в текстовых задачах, а Phi-4-multimodal соответствует возможностям конкурентов, требующих больше ресурсов
Кроссплатформенное развертывание: Обе модели могут быть оптимизированы для различных платформ с использованием ONNX Runtime, что позволяет развертывать их на периферийных устройствах, мобильных телефонах и в облачных средах с эффективным использованием ресурсов
Расширенная обработка контекста: Поддерживает обработку до 128 000 токенов, что позволяет анализировать большие документы и сложные контексты, сохраняя при этом эффективность
Варианты использования Phi-4-multimodal and Phi-4-mini
Автомобильный интеллект: Интеграция в автомобильные системы для обработки голосовых команд, мониторинга водителя, распознавания жестов и помощи в навигации в реальном времени, функционирующих как онлайн, так и оффлайн
Приложения для здравоохранения: Поддержка медицинской диагностики посредством визуального анализа, обобщения истории болезни пациента и быстрой диагностической поддержки при сохранении конфиденциальности данных в средах с ограниченными вычислительными ресурсами
Интеграция с интеллектуальными устройствами: Встраивание в смартфоны и персональные устройства для перевода языков в реальном времени, анализа изображений и интеллектуальной персональной помощи с низкой задержкой
Финансовые услуги: Автоматизация сложных финансовых расчетов, создание многоязычных отчетов и перевод финансовых документов при сохранении высокой точности в вычислительных задачах
Преимущества
Эффективное использование ресурсов при небольшом размере модели с сохранением высокой производительности
Универсальные варианты развертывания в различных вычислительных средах
Сильные возможности рассуждения и мультимодальной обработки в компактной форме
Недостатки
Разрыв в производительности в задачах QA по речи по сравнению с более крупными моделями, такими как Gemini-2.0-Flash
Может быть сложно для малого бизнеса внедрить и интегрировать
Ограниченная емкость сохранения знаний по сравнению с более крупными языковыми моделями
Как использовать Phi-4-multimodal and Phi-4-mini
Установите необходимые зависимости: Установите необходимые пакеты: pip install transformers==4.48.2 flash_attn==2.7.4.post1 torch==2.6.0 accelerate==1.3.0 soundfile==0.13.1 pillow==11.1.0 scipy==1.15.2 torchvision==0.21.0 backoff==2.2.1 peft==0.13.2
Импортируйте необходимые библиотеки: Импортируйте необходимые библиотеки Python: import requests, torch, os, io, PIL, soundfile, transformers
Загрузите модель: Загрузите модель и процессор с помощью: model_path = 'microsoft/Phi-4-multimodal-instruct'; processor = AutoProcessor.from_pretrained(model_path); model = AutoModelForCausalLM.from_pretrained(model_path)
Подготовьте входные данные: Отформатируйте входные данные в зависимости от типа — текст, изображение или аудио. Для текста используйте формат чата с системными и пользовательскими сообщениями. Для изображений/аудио убедитесь, что они в поддерживаемых форматах
Сгенерируйте выходные данные: Используйте конвейер для генерации выходных данных: pipeline = transformers.pipeline('text-generation', model=model_path); outputs = pipeline(messages, max_new_tokens=128)
Доступ через платформы: В качестве альтернативы, получите доступ к моделям через платформы Azure AI Foundry, Hugging Face или NVIDIA API Catalog, которые предоставляют пользовательские интерфейсы для взаимодействия с моделями
Необязательно: Тонкая настройка: Для настройки используйте Azure Machine Learning или возможности тонкой настройки без кода Azure AI Foundry, чтобы адаптировать модель для конкретных случаев использования
Развертывание: Разверните модель с помощью служб Azure AI для производственного использования или используйте ONNX Runtime для развертывания на периферии/устройстве с Microsoft Olive для оптимизации
Часто задаваемые вопросы о Phi-4-multimodal and Phi-4-mini
Это новейшие модели в семействе малых языковых моделей (SLM) Microsoft Phi. Phi-4-multimodal — это мультимодальная модель с 5,6 миллиардами параметров, которая может одновременно обрабатывать речь, зрение и текст, а Phi-4-mini — это модель с 3,8 миллиардами параметров, которая превосходно справляется с текстовыми задачами.
Популярные статьи

Как установить и запустить AI Video Generator WAN2.2 на вашем ПК в 2025 году (Руководство для начинающих)
Aug 4, 2025

Grok выпускает AI Companion — Ani и Rudi с функциями NSFW
Jul 16, 2025

SweetAI Chat против HeraHaven: Найдите свое приложение для пикантного AI-чата в 2025 году
Jul 10, 2025

SweetAI Chat против Secret Desires: какой конструктор AI-партнеров подходит именно вам? | 2025
Jul 10, 2025
Аналитика веб-сайта Phi-4-multimodal and Phi-4-mini
Трафик и рейтинги Phi-4-multimodal and Phi-4-mini
6.7M
Ежемесячные посещения
-
Глобальный рейтинг
-
Рейтинг категории
Тенденции трафика: Jul 2024-Jun 2025
Анализ пользователей Phi-4-multimodal and Phi-4-mini
00:01:47
Средняя продолжительность посещения
1.95
Страниц за посещение
60.86%
Показатель отказов
Основные регионы Phi-4-multimodal and Phi-4-mini
US: 21.02%
IN: 11.59%
JP: 5.16%
BR: 4.8%
GB: 4.14%
Others: 53.29%