
Phi-4-multimodal and Phi-4-mini
Phi-4-multimodal (5,6B parameter) dan Phi-4-mini (3,8B parameter) Microsoft adalah model bahasa kecil baru yang memberikan pemrosesan multimodal yang kuat dan kemampuan berbasis teks yang efisien sambil membutuhkan sumber daya komputasi minimal.
https://azure.microsoft.com/en-us/blog/empowering-innovation-the-next-generation-of-the-phi-family?ref=aipure&utm_source=aipure

Informasi Produk
Diperbarui:Jun 16, 2025
Tren Traffic Bulanan Phi-4-multimodal and Phi-4-mini
Phi-4-multimodal dan Phi-4-mini mengalami penurunan lalu lintas sebesar 3,5% dengan -245.633 kunjungan pada bulan Juli. Penurunan kecil ini mungkin disebabkan oleh lanskap persaingan, khususnya dengan Microsoft Azure yang mengumumkan 25 pengumuman besar di acara Build 2025, termasuk Azure AI Foundry dan aplikasi GitHub yang ditingkatkan untuk Teams, yang mungkin telah mengalihkan perhatian dari produk-produk ini.
Apa itu Phi-4-multimodal and Phi-4-mini
Phi-4-multimodal dan Phi-4-mini adalah tambahan terbaru untuk keluarga Phi dari model bahasa kecil (SLM) Microsoft, yang dirancang untuk memberdayakan pengembang dengan kemampuan AI canggih sambil mempertahankan efisiensi. Phi-4-multimodal adalah model bahasa multimodal pertama Microsoft yang secara mulus mengintegrasikan pemrosesan ucapan, penglihatan, dan teks ke dalam arsitektur terpadu tunggal, sementara Phi-4-mini unggul dalam tugas berbasis teks seperti penalaran, matematika, pengkodean, dan mengikuti instruksi. Kedua model sekarang tersedia melalui Azure AI Foundry, Hugging Face, dan Katalog API NVIDIA, membuatnya dapat diakses oleh pengembang untuk membangun aplikasi AI inovatif.
Fitur Utama Phi-4-multimodal and Phi-4-mini
Phi-4-multimodal (5.6B parameter) dan Phi-4-mini (3.8B parameter) adalah model bahasa kecil terbaru dari Microsoft yang dirancang untuk penerapan AI yang efisien. Phi-4-multimodal secara unik mengintegrasikan pemrosesan ucapan, penglihatan, dan teks dalam satu arsitektur, sementara Phi-4-mini unggul dalam tugas berbasis teks seperti penalaran, matematika, dan pengkodean. Kedua model ini dioptimalkan untuk lingkungan dengan batasan komputasi dan dapat diterapkan di seluruh cloud, edge, dan perangkat seluler, menawarkan kinerja tinggi dengan persyaratan komputasi yang lebih rendah.
Pemrosesan Multimodal Terpadu: Phi-4-multimodal mengintegrasikan pemrosesan ucapan, penglihatan, dan teks dalam satu model menggunakan teknologi mixture-of-LoRAs, memungkinkan pemrosesan simultan dari berbagai jenis input tanpa penurunan kinerja
Ringkas Namun Bertenaga: Meskipun ukurannya lebih kecil, kedua model ini mempertahankan tingkat kinerja yang tinggi, dengan Phi-4-mini mengungguli model yang lebih besar dalam tugas berbasis teks dan Phi-4-multimodal menyamai kemampuan pesaing yang lebih intensif sumber daya
Penerapan Lintas Platform: Kedua model dapat dioptimalkan untuk berbagai platform menggunakan ONNX Runtime, memungkinkan penerapan pada perangkat edge, ponsel, dan lingkungan cloud dengan pemanfaatan sumber daya yang efisien
Pemrosesan Konteks yang Diperluas: Mendukung pemrosesan hingga 128.000 token, memungkinkan analisis dokumen besar dan konteks kompleks sambil mempertahankan efisiensi
Kasus Penggunaan Phi-4-multimodal and Phi-4-mini
Kecerdasan Otomotif: Integrasi ke dalam sistem kendaraan untuk pemrosesan perintah suara, pemantauan pengemudi, pengenalan gerakan, dan bantuan navigasi waktu nyata, berfungsi baik secara online maupun offline
Aplikasi Perawatan Kesehatan: Mendukung diagnosis medis melalui analisis visual, peringkasan riwayat pasien, dan dukungan diagnostik cepat sambil menjaga privasi data di lingkungan dengan batasan komputasi
Integrasi Perangkat Pintar: Penyematan di ponsel cerdas dan perangkat pribadi untuk terjemahan bahasa waktu nyata, analisis gambar, dan bantuan pribadi cerdas dengan latensi rendah
Layanan Keuangan: Mengotomatiskan perhitungan keuangan yang kompleks, menghasilkan laporan multibahasa, dan menerjemahkan dokumen keuangan sambil mempertahankan akurasi tinggi dalam tugas komputasi
Kelebihan
Pemanfaatan sumber daya yang efisien dengan ukuran model yang kecil sambil mempertahankan kinerja tinggi
Opsi penerapan serbaguna di berbagai lingkungan komputasi
Kemampuan penalaran dan pemrosesan multimodal yang kuat dalam bentuk yang ringkas
Kekurangan
Kesenjangan kinerja dalam tugas QA ucapan dibandingkan dengan model yang lebih besar seperti Gemini-2.0-Flash
Mungkin menantang bagi bisnis yang lebih kecil untuk menerapkan dan mengintegrasikan
Kapasitas retensi pengetahuan terbatas dibandingkan dengan model bahasa yang lebih besar
Cara Menggunakan Phi-4-multimodal and Phi-4-mini
Instal Dependensi yang Diperlukan: Instal paket yang diperlukan: pip install transformers==4.48.2 flash_attn==2.7.4.post1 torch==2.6.0 accelerate==1.3.0 soundfile==0.13.1 pillow==11.1.0 scipy==1.15.2 torchvision==0.21.0 backoff==2.2.1 peft==0.13.2
Impor Pustaka yang Diperlukan: Impor pustaka Python yang diperlukan: import requests, torch, os, io, PIL, soundfile, transformers
Muat Model: Muat model dan prosesor menggunakan: model_path = 'microsoft/Phi-4-multimodal-instruct'; processor = AutoProcessor.from_pretrained(model_path); model = AutoModelForCausalLM.from_pretrained(model_path)
Siapkan Input: Format input Anda berdasarkan jenisnya - teks, gambar, atau audio. Untuk teks, gunakan format obrolan dengan pesan sistem dan pengguna. Untuk gambar/audio, pastikan mereka dalam format yang didukung
Hasilkan Output: Gunakan pipeline untuk menghasilkan output: pipeline = transformers.pipeline('text-generation', model=model_path); outputs = pipeline(messages, max_new_tokens=128)
Akses Melalui Platform: Atau, akses model melalui platform Azure AI Foundry, Hugging Face, atau Katalog API NVIDIA yang menyediakan antarmuka pengguna untuk interaksi model
Opsional: Fine-tuning: Untuk penyesuaian, gunakan Azure Machine Learning atau kemampuan fine-tuning tanpa kode Azure AI Foundry untuk mengadaptasi model untuk kasus penggunaan tertentu
Terapkan: Terapkan model menggunakan layanan Azure AI untuk penggunaan produksi, atau gunakan ONNX Runtime untuk penerapan edge/perangkat dengan Microsoft Olive untuk optimasi
FAQ Phi-4-multimodal and Phi-4-mini
Mereka adalah model terbaru dalam keluarga Phi dari model bahasa kecil (SLM) Microsoft. Phi-4-multimodal adalah model multimodal 5,6B parameter yang dapat memproses ucapan, penglihatan, dan teks secara bersamaan, sementara Phi-4-mini adalah model 3,8B parameter yang unggul dalam tugas berbasis teks.
Artikel Populer

SweetAI Chat vs Secret Desires: Pembuat Partner AI Mana yang Tepat untuk Anda?
Jul 10, 2025

Cara Membuat Video Hewan AI Viral di Tahun 2025: Panduan Langkah demi Langkah
Jul 3, 2025

Alternatif SweetAI Chat Terbaik di 2025: Perbandingan Platform Obrolan AI Girlfriend & NSFW Terbaik
Jun 30, 2025

Cara Membuat Video AI ASMR Viral dalam 5 Menit (Tanpa Mikrofon, Tanpa Kamera) | 2025
Jun 23, 2025
Analitik Situs Web Phi-4-multimodal and Phi-4-mini
Lalu Lintas & Peringkat Phi-4-multimodal and Phi-4-mini
6.7M
Kunjungan Bulanan
-
Peringkat Global
-
Peringkat Kategori
Tren Lalu Lintas: Jul 2024-Jun 2025
Wawasan Pengguna Phi-4-multimodal and Phi-4-mini
00:01:47
Rata-rata Durasi Kunjungan
1.95
Halaman Per Kunjungan
60.86%
Tingkat Pentalan Pengguna
Wilayah Teratas Phi-4-multimodal and Phi-4-mini
US: 21.02%
IN: 11.59%
JP: 5.16%
BR: 4.8%
GB: 4.14%
Others: 53.29%