
Phi-4-multimodal and Phi-4-mini
Phi-4-multimodal (5,6 млрд параметров) и Phi-4-mini (3,8 млрд параметров) от Microsoft — это новые малые языковые модели, которые обеспечивают мощную мультимодальную обработку и эффективные текстовые возможности, требуя при этом минимальных вычислительных ресурсов.
https://azure.microsoft.com/en-us/blog/empowering-innovation-the-next-generation-of-the-phi-family?ref=aipure&utm_source=aipure

Информация о продукте
Обновлено:16/05/2025
Тенденции ежемесячного трафика Phi-4-multimodal and Phi-4-mini
Phi-4-multimodal и Phi-4-mini испытали снижение трафика на 7,4%, что составило 563 тыс. меньше посещений. Это можно объяснить отсутствием недавних обновлений продукта и внедрением Microsoft Copilot в Azure, который предлагает расширенные возможности искусственного интеллекта и мог привлечь пользователей.
Что такое Phi-4-multimodal and Phi-4-mini
Phi-4-multimodal и Phi-4-mini — новейшие дополнения к семейству малых языковых моделей (SLM) Microsoft Phi, разработанные для расширения возможностей разработчиков с помощью передовых возможностей искусственного интеллекта при сохранении эффективности. Phi-4-multimodal — первая мультимодальная языковая модель Microsoft, которая органично объединяет обработку речи, зрения и текста в единую унифицированную архитектуру, а Phi-4-mini превосходно справляется с текстовыми задачами, такими как рассуждения, математика, кодирование и следование инструкциям. Обе модели теперь доступны через Azure AI Foundry, Hugging Face и каталог NVIDIA API, что делает их доступными для разработчиков для создания инновационных приложений искусственного интеллекта.
Ключевые особенности Phi-4-multimodal and Phi-4-mini
Phi-4-multimodal (5.6B параметров) и Phi-4-mini (3.8B параметров) - это новейшие небольшие языковые модели Microsoft, предназначенные для эффективного развертывания ИИ. Phi-4-multimodal уникальным образом объединяет обработку речи, зрения и текста в единой архитектуре, в то время как Phi-4-mini превосходно справляется с текстовыми задачами, такими как рассуждения, математика и кодирование. Обе модели оптимизированы для сред с ограниченными вычислительными ресурсами и могут быть развернуты в облаке, на периферии и на мобильных устройствах, предлагая высокую производительность при более низких вычислительных требованиях.
Унифицированная мультимодальная обработка: Phi-4-multimodal объединяет обработку речи, зрения и текста в единой модели с использованием технологии mixture-of-LoRAs, обеспечивая одновременную обработку нескольких типов входных данных без снижения производительности
Компактный, но мощный: Несмотря на меньший размер, обе модели поддерживают высокие уровни производительности, при этом Phi-4-mini превосходит более крупные модели в текстовых задачах, а Phi-4-multimodal соответствует возможностям конкурентов, требующих больше ресурсов
Кроссплатформенное развертывание: Обе модели могут быть оптимизированы для различных платформ с использованием ONNX Runtime, что позволяет развертывать их на периферийных устройствах, мобильных телефонах и в облачных средах с эффективным использованием ресурсов
Расширенная обработка контекста: Поддерживает обработку до 128 000 токенов, что позволяет анализировать большие документы и сложные контексты, сохраняя при этом эффективность
Варианты использования Phi-4-multimodal and Phi-4-mini
Автомобильный интеллект: Интеграция в автомобильные системы для обработки голосовых команд, мониторинга водителя, распознавания жестов и помощи в навигации в реальном времени, функционирующих как онлайн, так и оффлайн
Приложения для здравоохранения: Поддержка медицинской диагностики посредством визуального анализа, обобщения истории болезни пациента и быстрой диагностической поддержки при сохранении конфиденциальности данных в средах с ограниченными вычислительными ресурсами
Интеграция с интеллектуальными устройствами: Встраивание в смартфоны и персональные устройства для перевода языков в реальном времени, анализа изображений и интеллектуальной персональной помощи с низкой задержкой
Финансовые услуги: Автоматизация сложных финансовых расчетов, создание многоязычных отчетов и перевод финансовых документов при сохранении высокой точности в вычислительных задачах
Преимущества
Эффективное использование ресурсов при небольшом размере модели с сохранением высокой производительности
Универсальные варианты развертывания в различных вычислительных средах
Сильные возможности рассуждения и мультимодальной обработки в компактной форме
Недостатки
Разрыв в производительности в задачах QA по речи по сравнению с более крупными моделями, такими как Gemini-2.0-Flash
Может быть сложно для малого бизнеса внедрить и интегрировать
Ограниченная емкость сохранения знаний по сравнению с более крупными языковыми моделями
Как использовать Phi-4-multimodal and Phi-4-mini
Установите необходимые зависимости: Установите необходимые пакеты: pip install transformers==4.48.2 flash_attn==2.7.4.post1 torch==2.6.0 accelerate==1.3.0 soundfile==0.13.1 pillow==11.1.0 scipy==1.15.2 torchvision==0.21.0 backoff==2.2.1 peft==0.13.2
Импортируйте необходимые библиотеки: Импортируйте необходимые библиотеки Python: import requests, torch, os, io, PIL, soundfile, transformers
Загрузите модель: Загрузите модель и процессор с помощью: model_path = 'microsoft/Phi-4-multimodal-instruct'; processor = AutoProcessor.from_pretrained(model_path); model = AutoModelForCausalLM.from_pretrained(model_path)
Подготовьте входные данные: Отформатируйте входные данные в зависимости от типа — текст, изображение или аудио. Для текста используйте формат чата с системными и пользовательскими сообщениями. Для изображений/аудио убедитесь, что они в поддерживаемых форматах
Сгенерируйте выходные данные: Используйте конвейер для генерации выходных данных: pipeline = transformers.pipeline('text-generation', model=model_path); outputs = pipeline(messages, max_new_tokens=128)
Доступ через платформы: В качестве альтернативы, получите доступ к моделям через платформы Azure AI Foundry, Hugging Face или NVIDIA API Catalog, которые предоставляют пользовательские интерфейсы для взаимодействия с моделями
Необязательно: Тонкая настройка: Для настройки используйте Azure Machine Learning или возможности тонкой настройки без кода Azure AI Foundry, чтобы адаптировать модель для конкретных случаев использования
Развертывание: Разверните модель с помощью служб Azure AI для производственного использования или используйте ONNX Runtime для развертывания на периферии/устройстве с Microsoft Olive для оптимизации
Часто задаваемые вопросы о Phi-4-multimodal and Phi-4-mini
Это новейшие модели в семействе малых языковых моделей (SLM) Microsoft Phi. Phi-4-multimodal — это мультимодальная модель с 5,6 миллиардами параметров, которая может одновременно обрабатывать речь, зрение и текст, а Phi-4-mini — это модель с 3,8 миллиардами параметров, которая превосходно справляется с текстовыми задачами.
Популярные статьи

Google Veo 3: Первый AI-видеогенератор с поддержкой аудио "из коробки"
May 28, 2025

Топ-5 бесплатных AI NSFW чат-ботов-подружек, которые вам стоит попробовать — Реальный обзор от AIPURE
May 27, 2025

SweetAI Chat против CrushOn.AI: финальная битва NSFW AI Girlfriend в 2025 году
May 27, 2025

OpenAI Codex: дата выхода, цены, функции и как попробовать ведущего AI Coding Agent
May 19, 2025
Аналитика веб-сайта Phi-4-multimodal and Phi-4-mini
Трафик и рейтинги Phi-4-multimodal and Phi-4-mini
7.1M
Ежемесячные посещения
-
Глобальный рейтинг
-
Рейтинг категории
Тенденции трафика: Jun 2024-Apr 2025
Анализ пользователей Phi-4-multimodal and Phi-4-mini
00:01:53
Средняя продолжительность посещения
1.93
Страниц за посещение
61.28%
Показатель отказов
Основные регионы Phi-4-multimodal and Phi-4-mini
US: 20.81%
IN: 9.88%
JP: 5.66%
GB: 4.2%
BR: 4.2%
Others: 55.24%