
Phi-4-multimodal and Phi-4-mini
Phi-4-multimodal (5,6 tỷ tham số) và Phi-4-mini (3,8 tỷ tham số) của Microsoft là các mô hình ngôn ngữ nhỏ mới cung cấp khả năng xử lý đa phương thức mạnh mẽ và các khả năng dựa trên văn bản hiệu quả trong khi yêu cầu tài nguyên tính toán tối thiểu.
https://azure.microsoft.com/en-us/blog/empowering-innovation-the-next-generation-of-the-phi-family?ref=aipure&utm_source=aipure

Thông tin Sản phẩm
Đã cập nhật:May 16, 2025
Xu hướng Lưu lượng Truy cập Hàng tháng của Phi-4-multimodal and Phi-4-mini
Phi-4-multimodal và Phi-4-mini đã trải qua sự sụt giảm 7,4% về lưu lượng truy cập, với 563K lượt truy cập ít hơn. Điều này có thể là do thiếu các cập nhật sản phẩm gần đây và sự ra mắt của Microsoft Copilot trong Azure, vốn cung cấp các khả năng AI tiên tiến và có thể đã thu hút người dùng.
Phi-4-multimodal and Phi-4-mini là gì
Phi-4-multimodal và Phi-4-mini là những bổ sung mới nhất cho dòng mô hình ngôn ngữ nhỏ (SLM) Phi của Microsoft, được thiết kế để trao quyền cho các nhà phát triển với các khả năng AI tiên tiến trong khi vẫn duy trì hiệu quả. Phi-4-multimodal là mô hình ngôn ngữ đa phương thức đầu tiên của Microsoft tích hợp liền mạch khả năng xử lý giọng nói, hình ảnh và văn bản vào một kiến trúc thống nhất duy nhất, trong khi Phi-4-mini vượt trội trong các tác vụ dựa trên văn bản như lý luận, toán học, mã hóa và tuân theo hướng dẫn. Cả hai mô hình hiện đều có sẵn thông qua Azure AI Foundry, Hugging Face và NVIDIA API Catalog, giúp các nhà phát triển có thể truy cập để xây dựng các ứng dụng AI sáng tạo.
Các Tính năng Chính của Phi-4-multimodal and Phi-4-mini
Phi-4-multimodal (5,6 tỷ tham số) và Phi-4-mini (3,8 tỷ tham số) là các mô hình ngôn ngữ nhỏ mới nhất của Microsoft được thiết kế để triển khai AI hiệu quả. Phi-4-multimodal tích hợp độc đáo khả năng xử lý giọng nói, hình ảnh và văn bản trong một kiến trúc duy nhất, trong khi Phi-4-mini vượt trội trong các tác vụ dựa trên văn bản như suy luận, toán học và viết mã. Cả hai mô hình đều được tối ưu hóa cho các môi trường bị hạn chế về tính toán và có thể được triển khai trên các thiết bị đám mây, biên và di động, mang lại hiệu suất cao với yêu cầu tính toán thấp hơn.
Xử lý đa phương thức thống nhất: Phi-4-multimodal tích hợp khả năng xử lý giọng nói, hình ảnh và văn bản trong một mô hình duy nhất bằng công nghệ mixture-of-LoRAs, cho phép xử lý đồng thời nhiều loại đầu vào mà không làm giảm hiệu suất
Nhỏ gọn nhưng mạnh mẽ: Mặc dù có kích thước nhỏ hơn, cả hai mô hình vẫn duy trì mức hiệu suất cao, với Phi-4-mini vượt trội hơn các mô hình lớn hơn trong các tác vụ dựa trên văn bản và Phi-4-multimodal phù hợp với khả năng của các đối thủ cạnh tranh tốn nhiều tài nguyên hơn
Triển khai đa nền tảng: Cả hai mô hình đều có thể được tối ưu hóa cho nhiều nền tảng khác nhau bằng ONNX Runtime, cho phép triển khai trên các thiết bị biên, điện thoại di động và môi trường đám mây với việc sử dụng tài nguyên hiệu quả
Xử lý ngữ cảnh mở rộng: Hỗ trợ xử lý tới 128.000 token, cho phép phân tích các tài liệu lớn và ngữ cảnh phức tạp trong khi vẫn duy trì hiệu quả
Các Trường hợp Sử dụng của Phi-4-multimodal and Phi-4-mini
Trí tuệ ô tô: Tích hợp vào hệ thống xe để xử lý lệnh thoại, giám sát người lái, nhận dạng cử chỉ và hỗ trợ điều hướng theo thời gian thực, hoạt động cả trực tuyến và ngoại tuyến
Ứng dụng chăm sóc sức khỏe: Hỗ trợ chẩn đoán y tế thông qua phân tích trực quan, tóm tắt lịch sử bệnh nhân và hỗ trợ chẩn đoán nhanh chóng trong khi vẫn duy trì quyền riêng tư dữ liệu trong môi trường bị hạn chế về tính toán
Tích hợp thiết bị thông minh: Nhúng vào điện thoại thông minh và thiết bị cá nhân để dịch ngôn ngữ theo thời gian thực, phân tích hình ảnh và hỗ trợ cá nhân thông minh với độ trễ thấp
Dịch vụ tài chính: Tự động hóa các tính toán tài chính phức tạp, tạo báo cáo đa ngôn ngữ và dịch tài liệu tài chính trong khi vẫn duy trì độ chính xác cao trong các tác vụ tính toán
Ưu điểm
Sử dụng tài nguyên hiệu quả với kích thước mô hình nhỏ trong khi vẫn duy trì hiệu suất cao
Các tùy chọn triển khai linh hoạt trên các môi trường điện toán khác nhau
Khả năng suy luận và xử lý đa phương thức mạnh mẽ ở dạng nhỏ gọn
Nhược điểm
Khoảng cách hiệu suất trong các tác vụ QA giọng nói so với các mô hình lớn hơn như Gemini-2.0-Flash
Có thể gây khó khăn cho các doanh nghiệp nhỏ hơn trong việc triển khai và tích hợp
Dung lượng lưu giữ kiến thức hạn chế so với các mô hình ngôn ngữ lớn hơn
Cách Sử dụng Phi-4-multimodal and Phi-4-mini
Cài đặt các phụ thuộc cần thiết: Cài đặt các gói cần thiết: pip install transformers==4.48.2 flash_attn==2.7.4.post1 torch==2.6.0 accelerate==1.3.0 soundfile==0.13.1 pillow==11.1.0 scipy==1.15.2 torchvision==0.21.0 backoff==2.2.1 peft==0.13.2
Nhập các thư viện cần thiết: Nhập các thư viện Python cần thiết: import requests, torch, os, io, PIL, soundfile, transformers
Tải mô hình: Tải mô hình và bộ xử lý bằng cách sử dụng: model_path = 'microsoft/Phi-4-multimodal-instruct'; processor = AutoProcessor.from_pretrained(model_path); model = AutoModelForCausalLM.from_pretrained(model_path)
Chuẩn bị đầu vào: Định dạng đầu vào của bạn dựa trên loại - văn bản, hình ảnh hoặc âm thanh. Đối với văn bản, hãy sử dụng định dạng trò chuyện với tin nhắn hệ thống và người dùng. Đối với hình ảnh/âm thanh, hãy đảm bảo chúng ở các định dạng được hỗ trợ
Tạo đầu ra: Sử dụng pipeline để tạo đầu ra: pipeline = transformers.pipeline('text-generation', model=model_path); outputs = pipeline(messages, max_new_tokens=128)
Truy cập thông qua các nền tảng: Ngoài ra, hãy truy cập các mô hình thông qua các nền tảng Azure AI Foundry, Hugging Face hoặc NVIDIA API Catalog, cung cấp giao diện người dùng để tương tác với mô hình
Tùy chọn: Tinh chỉnh: Để tùy chỉnh, hãy sử dụng Azure Machine Learning hoặc các khả năng tinh chỉnh không cần mã của Azure AI Foundry để điều chỉnh mô hình cho các trường hợp sử dụng cụ thể
Triển khai: Triển khai mô hình bằng các dịch vụ Azure AI để sử dụng trong sản xuất hoặc sử dụng ONNX Runtime để triển khai biên/thiết bị với Microsoft Olive để tối ưu hóa
Câu hỏi Thường gặp về Phi-4-multimodal and Phi-4-mini
Chúng là những mô hình mới nhất trong dòng Phi của Microsoft về các mô hình ngôn ngữ nhỏ (SLM). Phi-4-multimodal là một mô hình đa phương thức 5,6 tỷ tham số có thể xử lý đồng thời giọng nói, hình ảnh và văn bản, trong khi Phi-4-mini là một mô hình 3,8 tỷ tham số vượt trội trong các tác vụ dựa trên văn bản.
Bài viết phổ biến

Top 5 trình tạo nhân vật NSFW tốt nhất năm 2025
May 29, 2025

Google Veo 3: Trình tạo video AI đầu tiên hỗ trợ âm thanh gốc
May 28, 2025

Top 5 AI Chatbot Bạn Gái NSFW Miễn Phí Bạn Cần Thử—Đánh Giá Thực Tế của AIPURE
May 27, 2025

SweetAI Chat so găng CrushOn.AI: Cuộc đối đầu đỉnh cao của bạn gái AI NSFW năm 2025
May 27, 2025
Phân tích Trang web Phi-4-multimodal and Phi-4-mini
Lưu lượng truy cập & Xếp hạng của Phi-4-multimodal and Phi-4-mini
7.1M
Lượt truy cập hàng tháng
-
Xếp hạng Toàn cầu
-
Xếp hạng Danh mục
Xu hướng Lưu lượng truy cập: Jun 2024-Apr 2025
Thông tin chi tiết về Người dùng Phi-4-multimodal and Phi-4-mini
00:01:53
Thời lượng Truy cập Trung bình
1.93
Số trang mỗi lần Truy cập
61.28%
Tỷ lệ Thoát của Người dùng
Khu vực Hàng đầu của Phi-4-multimodal and Phi-4-mini
US: 20.81%
IN: 9.88%
JP: 5.66%
GB: 4.2%
BR: 4.2%
Others: 55.24%