Zyphra Zonos

Zyphra Zonos

Zonos est une suite de modèles de synthèse vocale (TTS) open source comprenant deux modèles de 1,6 milliard de paramètres (transformateur et hybride) avec clonage de voix haute fidélité, génération en temps réel et capacités de parole expressives publiées sous licence Apache 2.0.
https://www.zyphra.com/post/beta-release-of-zonos-v0-1?ref=aipure&utm_source=aipure
Zyphra Zonos

Informations sur le produit

Mis à jour:May 9, 2025

Tendances du trafic mensuel de Zyphra Zonos

Zyphra Zonos a connu une baisse de 43,9% du trafic, passant de 317,8K à 178,5K visites. Malgré l'introduction du système d'IA ZR1-1.5B pour résoudre des tâches de raisonnement mathématique complexe et des défis avancés de programmation, cette baisse significative suggère que ces mises à jour n'ont pas eu d'impact notable sur l'engagement des utilisateurs.

Voir l'historique du trafic

Qu'est-ce que Zyphra Zonos

Zonos-v0.1 est une suite de modèles de synthèse vocale de pointe développée par Zyphra qui comprend deux modèles de 1,6 milliard de paramètres - un modèle de transformateur et un modèle hybride SSM. Sorti en version bêta en février 2025, il a été entraîné sur environ 200 000 heures de données vocales couvrant plusieurs langues, bien que principalement l'anglais. Les modèles peuvent générer une parole très naturaliste avec des capacités de clonage de voix à partir de seulement 5 à 30 secondes d'audio de référence, tout en offrant un contrôle sur le débit de parole, la hauteur, la qualité audio et les émotions. Les deux modèles sont publiés sous la licence Apache 2.0, ce qui les rend entièrement accessibles à la recherche et au développement.

Caractéristiques principales de Zyphra Zonos

Zyphra Zonos est un système de synthèse vocale (TTS) de pointe doté de deux modèles de 1,6 milliard de paramètres (transformateur et hybride SSM) publiés sous licence Apache 2.0. Il offre des capacités de clonage vocal haute fidélité, une prise en charge multilingue et une génération de parole en temps réel avec un contrôle expressif sur diverses caractéristiques vocales, notamment les émotions, le débit de parole et la hauteur tonale. Le système produit un son de haute qualité à 44 kHz et fournit à la fois des poids de modèle open source et un service d'API commercial.
Clonage vocal haute fidélité: Peut cloner des voix avec une haute fidélité en utilisant seulement 5 à 30 secondes d'échantillons de parole
Contrôle expressif: Offre un contrôle précis sur le débit de parole, la hauteur tonale, la qualité audio et les émotions (tristesse, peur, colère, bonheur, surprise)
Prise en charge multilingue: Prend en charge plusieurs langues, dont l'anglais, le chinois, le japonais, le français, l'espagnol et l'allemand, avec une synthèse vocale de haute qualité
Architecture double: Comporte des modèles hybrides transformateur et SSM, offrant différentes caractéristiques de performance et des compromis de qualité

Cas d'utilisation de Zyphra Zonos

Création de contenu: Permettre aux créateurs de générer des voix off et des narrations avec des voix personnalisées pour des vidéos, des podcasts et des livres audio
Solutions d'accessibilité: Fournir des services de synthèse vocale aux utilisateurs malvoyants avec une sortie vocale naturelle et expressive
Apprentissage des langues: Soutenir l'enseignement des langues en fournissant une prononciation de qualité locuteur natif dans plusieurs langues
Assistants virtuels: Alimenter les systèmes d'IA conversationnelle avec des réponses vocales naturelles et émotionnellement appropriées

Avantages

Disponibilité open source sous licence Apache 2.0
Sortie de haute qualité correspondant ou dépassant les solutions propriétaires
API flexible avec des prix compétitifs et un niveau gratuit

Inconvénients

Concentration plus élevée d'artefacts audio au début/à la fin de la génération
Inférence plus lente en raison des exigences de débit binaire élevé
Problèmes occasionnels d'alignement de texte avec des phrases hors distribution

Comment utiliser Zyphra Zonos

Installer les prérequis: Installez la bibliothèque eSpeak pour la phonémisation sur Ubuntu et installez uv via pip : 'pip install -U uv'
Cloner le référentiel: Clonez le référentiel Zonos en utilisant : 'git clone https://github.com/Zyphra/Zonos.git' et accédez au répertoire : 'cd Zonos'
Choisir la méthode de déploiement: Pour l'interface Gradio : 'docker compose up' OU pour le développement : 'docker build -t Zonos .'
Importer les bibliothèques requises: Importez torch, torchaudio et les modules Zonos requis : 'import torch, torchaudio, from zonos.model import Zonos, from zonos.conditioning import make_cond_dict'
Charger le modèle: Chargez soit le modèle de transformateur ('Zyphra/Zonos-v0.1-transformer') soit le modèle hybride ('Zyphra/Zonos-v0.1-hybrid') en utilisant Zonos.from_pretrained() et spécifiez le périphérique (par exemple, 'cuda')
Préparer l'entrée audio: Chargez le fichier audio de référence en utilisant torchaudio.load() pour créer un embedding de locuteur pour le clonage de voix
Créer un embedding de locuteur: Générez un embedding de locuteur à partir de l'audio d'entrée en utilisant model.make_speaker_embedding()
Définir le conditionnement: Créez un dictionnaire de conditionnement avec du texte, un embedding de locuteur, une langue et d'autres paramètres facultatifs comme les émotions, le débit de parole, etc. en utilisant make_cond_dict()
Générer de l'audio: Préparez le conditionnement, générez des codes audio et décodez en forme d'onde en utilisant model.prepare_conditioning(), model.generate() et model.autoencoder.decode()
Enregistrer la sortie: Enregistrez l'audio généré en utilisant torchaudio.save() avec une fréquence d'échantillonnage appropriée

FAQ de Zyphra Zonos

Zonos-v0.1 est une paire de modèles expressifs de synthèse vocale (TTS) publiés par Zyphra, comprenant un transformateur de 1,6 milliard et un modèle hybride de 1,6 milliard avec des capacités de clonage vocal haute fidélité. Les deux modèles sont publiés sous la licence Apache 2.0.

Analyses du site web de Zyphra Zonos

Trafic et classements de Zyphra Zonos
178.5K
Visites mensuelles
#173145
Classement mondial
#391
Classement par catégorie
Tendances du trafic : Jan 2025-Apr 2025
Aperçu des utilisateurs de Zyphra Zonos
00:02:16
Durée moyenne de visite
5.22
Pages par visite
38.63%
Taux de rebond des utilisateurs
Principales régions de Zyphra Zonos
  1. US: 39.01%

  2. KR: 10.04%

  3. IN: 9.79%

  4. NG: 5.5%

  5. DE: 4.53%

  6. Others: 31.13%

Derniers outils d'IA similaires à Zyphra Zonos

MicVoice.Ai
MicVoice.Ai
MicVoice.Ai est une plateforme de générateur de voix AI tout-en-un qui transforme le texte écrit en parole de haute qualité et au son naturel avec plus de 5000 voix AI réalistes supportant plus de 17 langues.
Narrai
Narrai
Narrai est une application mobile alimentée par IA qui crée instantanément une narration vocale et de la musique de fond pour de courtes vidéos en générant automatiquement des scripts pertinents et en offrant plusieurs personnalités de narrateurs.
Vagent
Vagent
Vagent est une interface vocale légère qui permet aux utilisateurs d'interagir avec des agents IA personnalisés par le biais de commandes vocales, offrant une manière naturelle et intuitive de contrôler les automatisations avec le support de plus de 60 langues.
F5 TTS
F5 TTS
F5-TTS est un système de synthèse vocale non autorégressif à la pointe de la technologie qui utilise des techniques de Flow Matching et de Diffusion Transformer pour générer une parole très naturelle et expressive avec des capacités de clonage vocal zéro-shot.