
Zyphra Zonos
Zonos adalah rangkaian model text-to-speech (TTS) sumber terbuka yang menampilkan dua model parameter 1,6B (transformer dan hibrida) dengan kloning suara dengan fidelitas tinggi, generasi waktu nyata, dan kemampuan ucapan ekspresif yang dirilis di bawah lisensi Apache 2.0.
https://www.zyphra.com/post/beta-release-of-zonos-v0-1?ref=aipure&utm_source=aipure

Informasi Produk
Diperbarui:Feb 16, 2025
Tren Traffic Bulanan Zyphra Zonos
Zyphra Zonos menerima 5.2k kunjungan bulan lalu, menunjukkan Penurunan Sedikit sebesar -5.4%. Berdasarkan analisis kami, tren ini sejalan dengan dinamika pasar yang umum di sektor alat AI.
Lihat riwayat trafficApa itu Zyphra Zonos
Zonos-v0.1 adalah rangkaian model text-to-speech mutakhir yang dikembangkan oleh Zyphra yang mencakup dua model parameter 1,6B - model transformer dan model hibrida SSM. Dirilis dalam versi beta pada Februari 2025, ia dilatih pada sekitar 200.000 jam data ucapan yang mencakup berbagai bahasa, meskipun terutama bahasa Inggris. Model dapat menghasilkan ucapan yang sangat naturalistik dengan kemampuan kloning suara hanya dari 5-30 detik audio referensi, sambil juga menawarkan kontrol atas kecepatan bicara, nada, kualitas audio, dan emosi. Kedua model dirilis di bawah lisensi Apache 2.0, menjadikannya sepenuhnya dapat diakses untuk penelitian dan pengembangan.
Fitur Utama Zyphra Zonos
Zyphra Zonos adalah sistem text-to-speech (TTS) mutakhir yang menampilkan dua model parameter 1,6 miliar (transformer dan hibrida SSM) yang dirilis di bawah lisensi Apache 2.0. Sistem ini menawarkan kemampuan kloning suara dengan fidelitas tinggi, dukungan multibahasa, dan pembuatan ucapan waktu nyata dengan kontrol ekspresif atas berbagai karakteristik vokal termasuk emosi, kecepatan bicara, dan nada. Sistem ini menghasilkan audio 44KHz berkualitas tinggi dan menyediakan bobot model sumber terbuka serta layanan API komersial.
Kloning Suara dengan Fidelitas Tinggi: Dapat mengkloning suara dengan fidelitas tinggi hanya dengan menggunakan sampel ucapan 5-30 detik
Kontrol Ekspresif: Menawarkan kontrol terperinci atas kecepatan bicara, nada, kualitas audio, dan emosi (kesedihan, ketakutan, kemarahan, kebahagiaan, kejutan)
Dukungan Multibahasa: Mendukung berbagai bahasa termasuk Inggris, Mandarin, Jepang, Prancis, Spanyol, dan Jerman dengan sintesis ucapan berkualitas tinggi
Arsitektur Ganda: Menampilkan model hibrida transformer dan SSM, menawarkan karakteristik kinerja dan trade-off kualitas yang berbeda
Kasus Penggunaan Zyphra Zonos
Pembuatan Konten: Memungkinkan kreator untuk menghasilkan sulih suara dan narasi dengan suara yang disesuaikan untuk video, podcast, dan buku audio
Solusi Aksesibilitas: Menyediakan layanan text-to-speech untuk pengguna tunanetra dengan keluaran suara yang alami dan ekspresif
Pembelajaran Bahasa: Mendukung pendidikan bahasa dengan menyediakan pengucapan berkualitas penutur asli dalam berbagai bahasa
Asisten Virtual: Memberdayakan sistem AI percakapan dengan respons suara yang terdengar alami dan sesuai secara emosional
Kelebihan
Ketersediaan sumber terbuka di bawah lisensi Apache 2.0
Keluaran berkualitas tinggi yang sesuai atau melebihi solusi berpemilik
API fleksibel dengan harga yang kompetitif dan tingkatan gratis
Kekurangan
Konsentrasi artefak audio yang lebih tinggi pada awal/akhir pembuatan
Inferensi lebih lambat karena persyaratan bitrate tinggi
Masalah penyelarasan teks sesekali dengan kalimat di luar distribusi
Cara Menggunakan Zyphra Zonos
Instal Prasyarat: Instal pustaka eSpeak untuk fonemisasi di Ubuntu dan instal uv melalui pip: 'pip install -U uv'
Klon Repositori: Klon repositori Zonos menggunakan: 'git clone https://github.com/Zyphra/Zonos.git' dan cd ke direktori: 'cd Zonos'
Pilih Metode Penerapan: Untuk antarmuka Gradio: 'docker compose up' ATAU untuk pengembangan: 'docker build -t Zonos .'
Impor Pustaka yang Diperlukan: Impor torch, torchaudio, dan modul Zonos yang diperlukan: 'import torch, torchaudio, from zonos.model import Zonos, from zonos.conditioning import make_cond_dict'
Muat Model: Muat model transformer ('Zyphra/Zonos-v0.1-transformer') atau model hibrida ('Zyphra/Zonos-v0.1-hybrid') menggunakan Zonos.from_pretrained() dan tentukan perangkat (mis. 'cuda')
Siapkan Input Audio: Muat file audio referensi menggunakan torchaudio.load() untuk membuat penyematan pembicara untuk kloning suara
Buat Penyematan Pembicara: Hasilkan penyematan pembicara dari input audio menggunakan model.make_speaker_embedding()
Atur Pengkondisian: Buat kamus pengkondisian dengan teks, penyematan pembicara, bahasa, dan parameter opsional lainnya seperti emosi, kecepatan bicara, dll. menggunakan make_cond_dict()
Hasilkan Audio: Siapkan pengkondisian, hasilkan kode audio, dan dekode ke bentuk gelombang menggunakan model.prepare_conditioning(), model.generate(), dan model.autoencoder.decode()
Simpan Output: Simpan audio yang dihasilkan menggunakan torchaudio.save() dengan laju pengambilan sampel yang sesuai
FAQ Zyphra Zonos
Zonos-v0.1 adalah sepasang model text-to-speech (TTS) ekspresif yang dirilis oleh Zyphra, menampilkan transformer 1.6B dan model hibrida 1.6B dengan kemampuan kloning suara dengan fidelitas tinggi. Kedua model dirilis di bawah lisensi Apache 2.0.
Video Zyphra Zonos
Analitik Situs Web Zyphra Zonos
Lalu Lintas & Peringkat Zyphra Zonos
5.2K
Kunjungan Bulanan
#3719544
Peringkat Global
-
Peringkat Kategori
Tren Lalu Lintas: Nov 2024-Jan 2025
Wawasan Pengguna Zyphra Zonos
00:00:20
Rata-rata Durasi Kunjungan
2.02
Halaman Per Kunjungan
36.6%
Tingkat Pentalan Pengguna
Wilayah Teratas Zyphra Zonos
US: 58.68%
ID: 23.61%
DE: 8.37%
JP: 6.69%
HK: 2.64%
Others: NAN%