
Phi-4-multimodal and Phi-4-mini
Phi-4-multimodal (5,6B parameter) dan Phi-4-mini (3,8B parameter) Microsoft adalah model bahasa kecil baru yang memberikan pemrosesan multimodal yang kuat dan kemampuan berbasis teks yang efisien sambil membutuhkan sumber daya komputasi minimal.
https://azure.microsoft.com/en-us/blog/empowering-innovation-the-next-generation-of-the-phi-family?ref=aipure&utm_source=aipure

Informasi Produk
Diperbarui:May 16, 2025
Tren Traffic Bulanan Phi-4-multimodal and Phi-4-mini
Phi-4-multimodal dan Phi-4-mini mengalami penurunan lalu lintas sebesar 7,4%, dengan pengurangan kunjungan sebanyak 563 ribu. Hal ini mungkin disebabkan oleh kurangnya pembaruan produk terbaru dan peluncuran Microsoft Copilot di Azure, yang menawarkan kemampuan AI canggih dan kemungkinan telah menarik pengguna untuk beralih.
Apa itu Phi-4-multimodal and Phi-4-mini
Phi-4-multimodal dan Phi-4-mini adalah tambahan terbaru untuk keluarga Phi dari model bahasa kecil (SLM) Microsoft, yang dirancang untuk memberdayakan pengembang dengan kemampuan AI canggih sambil mempertahankan efisiensi. Phi-4-multimodal adalah model bahasa multimodal pertama Microsoft yang secara mulus mengintegrasikan pemrosesan ucapan, penglihatan, dan teks ke dalam arsitektur terpadu tunggal, sementara Phi-4-mini unggul dalam tugas berbasis teks seperti penalaran, matematika, pengkodean, dan mengikuti instruksi. Kedua model sekarang tersedia melalui Azure AI Foundry, Hugging Face, dan Katalog API NVIDIA, membuatnya dapat diakses oleh pengembang untuk membangun aplikasi AI inovatif.
Fitur Utama Phi-4-multimodal and Phi-4-mini
Phi-4-multimodal (5.6B parameter) dan Phi-4-mini (3.8B parameter) adalah model bahasa kecil terbaru dari Microsoft yang dirancang untuk penerapan AI yang efisien. Phi-4-multimodal secara unik mengintegrasikan pemrosesan ucapan, penglihatan, dan teks dalam satu arsitektur, sementara Phi-4-mini unggul dalam tugas berbasis teks seperti penalaran, matematika, dan pengkodean. Kedua model ini dioptimalkan untuk lingkungan dengan batasan komputasi dan dapat diterapkan di seluruh cloud, edge, dan perangkat seluler, menawarkan kinerja tinggi dengan persyaratan komputasi yang lebih rendah.
Pemrosesan Multimodal Terpadu: Phi-4-multimodal mengintegrasikan pemrosesan ucapan, penglihatan, dan teks dalam satu model menggunakan teknologi mixture-of-LoRAs, memungkinkan pemrosesan simultan dari berbagai jenis input tanpa penurunan kinerja
Ringkas Namun Bertenaga: Meskipun ukurannya lebih kecil, kedua model ini mempertahankan tingkat kinerja yang tinggi, dengan Phi-4-mini mengungguli model yang lebih besar dalam tugas berbasis teks dan Phi-4-multimodal menyamai kemampuan pesaing yang lebih intensif sumber daya
Penerapan Lintas Platform: Kedua model dapat dioptimalkan untuk berbagai platform menggunakan ONNX Runtime, memungkinkan penerapan pada perangkat edge, ponsel, dan lingkungan cloud dengan pemanfaatan sumber daya yang efisien
Pemrosesan Konteks yang Diperluas: Mendukung pemrosesan hingga 128.000 token, memungkinkan analisis dokumen besar dan konteks kompleks sambil mempertahankan efisiensi
Kasus Penggunaan Phi-4-multimodal and Phi-4-mini
Kecerdasan Otomotif: Integrasi ke dalam sistem kendaraan untuk pemrosesan perintah suara, pemantauan pengemudi, pengenalan gerakan, dan bantuan navigasi waktu nyata, berfungsi baik secara online maupun offline
Aplikasi Perawatan Kesehatan: Mendukung diagnosis medis melalui analisis visual, peringkasan riwayat pasien, dan dukungan diagnostik cepat sambil menjaga privasi data di lingkungan dengan batasan komputasi
Integrasi Perangkat Pintar: Penyematan di ponsel cerdas dan perangkat pribadi untuk terjemahan bahasa waktu nyata, analisis gambar, dan bantuan pribadi cerdas dengan latensi rendah
Layanan Keuangan: Mengotomatiskan perhitungan keuangan yang kompleks, menghasilkan laporan multibahasa, dan menerjemahkan dokumen keuangan sambil mempertahankan akurasi tinggi dalam tugas komputasi
Kelebihan
Pemanfaatan sumber daya yang efisien dengan ukuran model yang kecil sambil mempertahankan kinerja tinggi
Opsi penerapan serbaguna di berbagai lingkungan komputasi
Kemampuan penalaran dan pemrosesan multimodal yang kuat dalam bentuk yang ringkas
Kekurangan
Kesenjangan kinerja dalam tugas QA ucapan dibandingkan dengan model yang lebih besar seperti Gemini-2.0-Flash
Mungkin menantang bagi bisnis yang lebih kecil untuk menerapkan dan mengintegrasikan
Kapasitas retensi pengetahuan terbatas dibandingkan dengan model bahasa yang lebih besar
Cara Menggunakan Phi-4-multimodal and Phi-4-mini
Instal Dependensi yang Diperlukan: Instal paket yang diperlukan: pip install transformers==4.48.2 flash_attn==2.7.4.post1 torch==2.6.0 accelerate==1.3.0 soundfile==0.13.1 pillow==11.1.0 scipy==1.15.2 torchvision==0.21.0 backoff==2.2.1 peft==0.13.2
Impor Pustaka yang Diperlukan: Impor pustaka Python yang diperlukan: import requests, torch, os, io, PIL, soundfile, transformers
Muat Model: Muat model dan prosesor menggunakan: model_path = 'microsoft/Phi-4-multimodal-instruct'; processor = AutoProcessor.from_pretrained(model_path); model = AutoModelForCausalLM.from_pretrained(model_path)
Siapkan Input: Format input Anda berdasarkan jenisnya - teks, gambar, atau audio. Untuk teks, gunakan format obrolan dengan pesan sistem dan pengguna. Untuk gambar/audio, pastikan mereka dalam format yang didukung
Hasilkan Output: Gunakan pipeline untuk menghasilkan output: pipeline = transformers.pipeline('text-generation', model=model_path); outputs = pipeline(messages, max_new_tokens=128)
Akses Melalui Platform: Atau, akses model melalui platform Azure AI Foundry, Hugging Face, atau Katalog API NVIDIA yang menyediakan antarmuka pengguna untuk interaksi model
Opsional: Fine-tuning: Untuk penyesuaian, gunakan Azure Machine Learning atau kemampuan fine-tuning tanpa kode Azure AI Foundry untuk mengadaptasi model untuk kasus penggunaan tertentu
Terapkan: Terapkan model menggunakan layanan Azure AI untuk penggunaan produksi, atau gunakan ONNX Runtime untuk penerapan edge/perangkat dengan Microsoft Olive untuk optimasi
FAQ Phi-4-multimodal and Phi-4-mini
Mereka adalah model terbaru dalam keluarga Phi dari model bahasa kecil (SLM) Microsoft. Phi-4-multimodal adalah model multimodal 5,6B parameter yang dapat memproses ucapan, penglihatan, dan teks secara bersamaan, sementara Phi-4-mini adalah model 3,8B parameter yang unggul dalam tugas berbasis teks.
Artikel Populer

5 Generator Karakter NSFW Terbaik di Tahun 2025
May 29, 2025

Google Veo 3: Generator Video AI Pertama yang Mendukung Audio Secara Native
May 28, 2025

5 Chatbot Pacar AI NSFW Gratis Terbaik yang Perlu Anda Coba—Ulasan Nyata AIPURE
May 27, 2025

SweetAI Chat vs CrushOn.AI: Pertarungan Utama Pacar AI NSFW di Tahun 2025
May 27, 2025
Analitik Situs Web Phi-4-multimodal and Phi-4-mini
Lalu Lintas & Peringkat Phi-4-multimodal and Phi-4-mini
7.1M
Kunjungan Bulanan
-
Peringkat Global
-
Peringkat Kategori
Tren Lalu Lintas: Jun 2024-Apr 2025
Wawasan Pengguna Phi-4-multimodal and Phi-4-mini
00:01:53
Rata-rata Durasi Kunjungan
1.93
Halaman Per Kunjungan
61.28%
Tingkat Pentalan Pengguna
Wilayah Teratas Phi-4-multimodal and Phi-4-mini
US: 20.81%
IN: 9.88%
JP: 5.66%
GB: 4.2%
BR: 4.2%
Others: 55.24%