Phi-4-multimodal and Phi-4-mini

Phi-4-multimodal and Phi-4-mini

WebsiteFreemiumAI Code Assistant
Phi-4-multimodal (5,6 tỷ tham số) và Phi-4-mini (3,8 tỷ tham số) của Microsoft là các mô hình ngôn ngữ nhỏ mới cung cấp khả năng xử lý đa phương thức mạnh mẽ và các khả năng dựa trên văn bản hiệu quả trong khi yêu cầu tài nguyên tính toán tối thiểu.
https://azure.microsoft.com/en-us/blog/empowering-innovation-the-next-generation-of-the-phi-family?ref=aipure&utm_source=aipure
Phi-4-multimodal and Phi-4-mini

Thông tin Sản phẩm

Đã cập nhật:May 16, 2025

Xu hướng Lưu lượng Truy cập Hàng tháng của Phi-4-multimodal and Phi-4-mini

Phi-4-multimodal và Phi-4-mini đã trải qua sự sụt giảm 7,4% về lưu lượng truy cập, với 563K lượt truy cập ít hơn. Điều này có thể là do thiếu các cập nhật sản phẩm gần đây và sự ra mắt của Microsoft Copilot trong Azure, vốn cung cấp các khả năng AI tiên tiến và có thể đã thu hút người dùng.

Xem lịch sử lưu lượng truy cập

Phi-4-multimodal and Phi-4-mini là gì

Phi-4-multimodal và Phi-4-mini là những bổ sung mới nhất cho dòng mô hình ngôn ngữ nhỏ (SLM) Phi của Microsoft, được thiết kế để trao quyền cho các nhà phát triển với các khả năng AI tiên tiến trong khi vẫn duy trì hiệu quả. Phi-4-multimodal là mô hình ngôn ngữ đa phương thức đầu tiên của Microsoft tích hợp liền mạch khả năng xử lý giọng nói, hình ảnh và văn bản vào một kiến trúc thống nhất duy nhất, trong khi Phi-4-mini vượt trội trong các tác vụ dựa trên văn bản như lý luận, toán học, mã hóa và tuân theo hướng dẫn. Cả hai mô hình hiện đều có sẵn thông qua Azure AI Foundry, Hugging Face và NVIDIA API Catalog, giúp các nhà phát triển có thể truy cập để xây dựng các ứng dụng AI sáng tạo.

Các Tính năng Chính của Phi-4-multimodal and Phi-4-mini

Phi-4-multimodal (5,6 tỷ tham số) và Phi-4-mini (3,8 tỷ tham số) là các mô hình ngôn ngữ nhỏ mới nhất của Microsoft được thiết kế để triển khai AI hiệu quả. Phi-4-multimodal tích hợp độc đáo khả năng xử lý giọng nói, hình ảnh và văn bản trong một kiến trúc duy nhất, trong khi Phi-4-mini vượt trội trong các tác vụ dựa trên văn bản như suy luận, toán học và viết mã. Cả hai mô hình đều được tối ưu hóa cho các môi trường bị hạn chế về tính toán và có thể được triển khai trên các thiết bị đám mây, biên và di động, mang lại hiệu suất cao với yêu cầu tính toán thấp hơn.
Xử lý đa phương thức thống nhất: Phi-4-multimodal tích hợp khả năng xử lý giọng nói, hình ảnh và văn bản trong một mô hình duy nhất bằng công nghệ mixture-of-LoRAs, cho phép xử lý đồng thời nhiều loại đầu vào mà không làm giảm hiệu suất
Nhỏ gọn nhưng mạnh mẽ: Mặc dù có kích thước nhỏ hơn, cả hai mô hình vẫn duy trì mức hiệu suất cao, với Phi-4-mini vượt trội hơn các mô hình lớn hơn trong các tác vụ dựa trên văn bản và Phi-4-multimodal phù hợp với khả năng của các đối thủ cạnh tranh tốn nhiều tài nguyên hơn
Triển khai đa nền tảng: Cả hai mô hình đều có thể được tối ưu hóa cho nhiều nền tảng khác nhau bằng ONNX Runtime, cho phép triển khai trên các thiết bị biên, điện thoại di động và môi trường đám mây với việc sử dụng tài nguyên hiệu quả
Xử lý ngữ cảnh mở rộng: Hỗ trợ xử lý tới 128.000 token, cho phép phân tích các tài liệu lớn và ngữ cảnh phức tạp trong khi vẫn duy trì hiệu quả

Các Trường hợp Sử dụng của Phi-4-multimodal and Phi-4-mini

Trí tuệ ô tô: Tích hợp vào hệ thống xe để xử lý lệnh thoại, giám sát người lái, nhận dạng cử chỉ và hỗ trợ điều hướng theo thời gian thực, hoạt động cả trực tuyến và ngoại tuyến
Ứng dụng chăm sóc sức khỏe: Hỗ trợ chẩn đoán y tế thông qua phân tích trực quan, tóm tắt lịch sử bệnh nhân và hỗ trợ chẩn đoán nhanh chóng trong khi vẫn duy trì quyền riêng tư dữ liệu trong môi trường bị hạn chế về tính toán
Tích hợp thiết bị thông minh: Nhúng vào điện thoại thông minh và thiết bị cá nhân để dịch ngôn ngữ theo thời gian thực, phân tích hình ảnh và hỗ trợ cá nhân thông minh với độ trễ thấp
Dịch vụ tài chính: Tự động hóa các tính toán tài chính phức tạp, tạo báo cáo đa ngôn ngữ và dịch tài liệu tài chính trong khi vẫn duy trì độ chính xác cao trong các tác vụ tính toán

Ưu điểm

Sử dụng tài nguyên hiệu quả với kích thước mô hình nhỏ trong khi vẫn duy trì hiệu suất cao
Các tùy chọn triển khai linh hoạt trên các môi trường điện toán khác nhau
Khả năng suy luận và xử lý đa phương thức mạnh mẽ ở dạng nhỏ gọn

Nhược điểm

Khoảng cách hiệu suất trong các tác vụ QA giọng nói so với các mô hình lớn hơn như Gemini-2.0-Flash
Có thể gây khó khăn cho các doanh nghiệp nhỏ hơn trong việc triển khai và tích hợp
Dung lượng lưu giữ kiến thức hạn chế so với các mô hình ngôn ngữ lớn hơn

Cách Sử dụng Phi-4-multimodal and Phi-4-mini

Cài đặt các phụ thuộc cần thiết: Cài đặt các gói cần thiết: pip install transformers==4.48.2 flash_attn==2.7.4.post1 torch==2.6.0 accelerate==1.3.0 soundfile==0.13.1 pillow==11.1.0 scipy==1.15.2 torchvision==0.21.0 backoff==2.2.1 peft==0.13.2
Nhập các thư viện cần thiết: Nhập các thư viện Python cần thiết: import requests, torch, os, io, PIL, soundfile, transformers
Tải mô hình: Tải mô hình và bộ xử lý bằng cách sử dụng: model_path = 'microsoft/Phi-4-multimodal-instruct'; processor = AutoProcessor.from_pretrained(model_path); model = AutoModelForCausalLM.from_pretrained(model_path)
Chuẩn bị đầu vào: Định dạng đầu vào của bạn dựa trên loại - văn bản, hình ảnh hoặc âm thanh. Đối với văn bản, hãy sử dụng định dạng trò chuyện với tin nhắn hệ thống và người dùng. Đối với hình ảnh/âm thanh, hãy đảm bảo chúng ở các định dạng được hỗ trợ
Tạo đầu ra: Sử dụng pipeline để tạo đầu ra: pipeline = transformers.pipeline('text-generation', model=model_path); outputs = pipeline(messages, max_new_tokens=128)
Truy cập thông qua các nền tảng: Ngoài ra, hãy truy cập các mô hình thông qua các nền tảng Azure AI Foundry, Hugging Face hoặc NVIDIA API Catalog, cung cấp giao diện người dùng để tương tác với mô hình
Tùy chọn: Tinh chỉnh: Để tùy chỉnh, hãy sử dụng Azure Machine Learning hoặc các khả năng tinh chỉnh không cần mã của Azure AI Foundry để điều chỉnh mô hình cho các trường hợp sử dụng cụ thể
Triển khai: Triển khai mô hình bằng các dịch vụ Azure AI để sử dụng trong sản xuất hoặc sử dụng ONNX Runtime để triển khai biên/thiết bị với Microsoft Olive để tối ưu hóa

Câu hỏi Thường gặp về Phi-4-multimodal and Phi-4-mini

Chúng là những mô hình mới nhất trong dòng Phi của Microsoft về các mô hình ngôn ngữ nhỏ (SLM). Phi-4-multimodal là một mô hình đa phương thức 5,6 tỷ tham số có thể xử lý đồng thời giọng nói, hình ảnh và văn bản, trong khi Phi-4-mini là một mô hình 3,8 tỷ tham số vượt trội trong các tác vụ dựa trên văn bản.

Phân tích Trang web Phi-4-multimodal and Phi-4-mini

Lưu lượng truy cập & Xếp hạng của Phi-4-multimodal and Phi-4-mini
7.1M
Lượt truy cập hàng tháng
-
Xếp hạng Toàn cầu
-
Xếp hạng Danh mục
Xu hướng Lưu lượng truy cập: Jun 2024-Apr 2025
Thông tin chi tiết về Người dùng Phi-4-multimodal and Phi-4-mini
00:01:53
Thời lượng Truy cập Trung bình
1.93
Số trang mỗi lần Truy cập
61.28%
Tỷ lệ Thoát của Người dùng
Khu vực Hàng đầu của Phi-4-multimodal and Phi-4-mini
  1. US: 20.81%

  2. IN: 9.88%

  3. JP: 5.66%

  4. GB: 4.2%

  5. BR: 4.2%

  6. Others: 55.24%

Công cụ AI Mới nhất Tương tự Phi-4-multimodal and Phi-4-mini

Gait
Gait
Gait là một công cụ hợp tác tích hợp việc tạo mã hỗ trợ AI với kiểm soát phiên bản, cho phép các nhóm theo dõi, hiểu và chia sẻ bối cảnh mã do AI tạo ra một cách hiệu quả.
invoices.dev
invoices.dev
invoices.dev là một nền tảng lập hóa đơn tự động tạo hóa đơn trực tiếp từ các cam kết Git của các nhà phát triển, với khả năng tích hợp cho các dịch vụ GitHub, Slack, Linear và Google.
EasyRFP
EasyRFP
EasyRFP là một bộ công cụ tính toán biên được hỗ trợ bởi AI giúp đơn giản hóa các phản hồi RFP (Yêu cầu đề xuất) và cho phép phân loại hình thái thực địa theo thời gian thực thông qua công nghệ học sâu.
Cart.ai
Cart.ai
Cart.ai là một nền tảng dịch vụ dựa trên AI cung cấp các giải pháp tự động hóa doanh nghiệp toàn diện bao gồm lập trình, quản lý quan hệ khách hàng, chỉnh sửa video, thiết lập thương mại điện tử và phát triển AI tùy chỉnh với hỗ trợ 24/7.