
Zyphra Zonos
Zonos es un conjunto de modelos de texto a voz (TTS) de código abierto que incluye dos modelos de 1.600 millones de parámetros (transformador e híbrido) con clonación de voz de alta fidelidad, generación en tiempo real y capacidades de voz expresiva publicadas bajo la licencia Apache 2.0.
https://www.zyphra.com/post/beta-release-of-zonos-v0-1?ref=aipure&utm_source=aipure

Información del Producto
Actualizado:09/05/2025
Tendencias de Tráfico Mensual de Zyphra Zonos
Zyphra Zonos experimentó una disminución del 43.9% en el tráfico, cayendo de 317.8K a 178.5K visitas. A pesar de la introducción del sistema de IA ZR1-1.5B para resolver tareas de razonamiento matemático complejo y desafíos avanzados de programación de software, la disminución significativa sugiere que estas actualizaciones no impactaron significativamente en la participación de los usuarios.
¿Qué es Zyphra Zonos?
Zonos-v0.1 es un conjunto de modelos de texto a voz de vanguardia desarrollado por Zyphra que incluye dos modelos de 1.600 millones de parámetros: un modelo transformador y un modelo híbrido SSM. Lanzado en versión beta en febrero de 2025, se entrenó con aproximadamente 200.000 horas de datos de voz que cubren varios idiomas, aunque principalmente inglés. Los modelos pueden generar voz muy naturalista con capacidades de clonación de voz a partir de sólo 5-30 segundos de audio de referencia, al tiempo que ofrecen control sobre la velocidad de habla, el tono, la calidad de audio y las emociones. Ambos modelos se publican bajo la licencia Apache 2.0, lo que los hace totalmente accesibles para la investigación y el desarrollo.
Características Principales de Zyphra Zonos
Zyphra Zonos es un sistema de texto a voz (TTS) de vanguardia que presenta dos modelos de 1.6B de parámetros (transformador e híbrido SSM) lanzados bajo la licencia Apache 2.0. Ofrece capacidades de clonación de voz de alta fidelidad, soporte multilingüe y generación de voz en tiempo real con control expresivo sobre varias características vocales, incluidas las emociones, la velocidad del habla y el tono. El sistema produce audio de alta calidad de 44 KHz y proporciona tanto los pesos del modelo de código abierto como un servicio de API comercial.
Clonación de voz de alta fidelidad: Puede clonar voces con alta fidelidad utilizando solo 5-30 segundos de muestras de voz
Control expresivo: Ofrece un control preciso sobre la velocidad del habla, el tono, la calidad del audio y las emociones (tristeza, miedo, ira, felicidad, sorpresa)
Soporte multilingüe: Admite varios idiomas, incluidos inglés, chino, japonés, francés, español y alemán, con síntesis de voz de alta calidad
Arquitectura dual: Presenta modelos híbridos de transformador y SSM, que ofrecen diferentes características de rendimiento y compensaciones de calidad
Casos de Uso de Zyphra Zonos
Creación de contenido: Permite a los creadores generar voces en off y narraciones con voces personalizadas para videos, podcasts y audiolibros
Soluciones de accesibilidad: Proporciona servicios de texto a voz para usuarios con discapacidad visual con una salida de voz natural y expresiva
Aprendizaje de idiomas: Apoya la educación de idiomas proporcionando una pronunciación de calidad de hablante nativo en varios idiomas
Asistentes virtuales: Potencia los sistemas de IA conversacional con respuestas de voz de sonido natural y emocionalmente apropiadas
Ventajas
Disponibilidad de código abierto bajo la licencia Apache 2.0
Salida de alta calidad que iguala o supera las soluciones patentadas
API flexible con precios competitivos y nivel gratuito
Desventajas
Mayor concentración de artefactos de audio al inicio/final de la generación
Inferencia más lenta debido a los altos requisitos de velocidad de bits
Problemas ocasionales de alineación de texto con oraciones fuera de distribución
Cómo Usar Zyphra Zonos
Instalar los requisitos previos: Instale la biblioteca eSpeak para la fonetización en Ubuntu e instale uv a través de pip: 'pip install -U uv'
Clonar el repositorio: Clone el repositorio de Zonos usando: 'git clone https://github.com/Zyphra/Zonos.git' y cd en el directorio: 'cd Zonos'
Elegir el método de implementación: Para la interfaz Gradio: 'docker compose up' O para el desarrollo: 'docker build -t Zonos .'
Importar las bibliotecas necesarias: Importe torch, torchaudio y los módulos Zonos necesarios: 'import torch, torchaudio, from zonos.model import Zonos, from zonos.conditioning import make_cond_dict'
Cargar el modelo: Cargue el modelo transformador ('Zyphra/Zonos-v0.1-transformer') o el modelo híbrido ('Zyphra/Zonos-v0.1-hybrid') usando Zonos.from_pretrained() y especifique el dispositivo (por ejemplo, 'cuda')
Preparar la entrada de audio: Cargue el archivo de audio de referencia usando torchaudio.load() para crear la incrustación del hablante para la clonación de voz
Crear la incrustación del hablante: Genere la incrustación del hablante a partir del audio de entrada usando model.make_speaker_embedding()
Establecer el condicionamiento: Cree un diccionario de condicionamiento con texto, incrustación del hablante, idioma y otros parámetros opcionales como emociones, velocidad de habla, etc. usando make_cond_dict()
Generar audio: Prepare el condicionamiento, genere códigos de audio y decodifique a forma de onda usando model.prepare_conditioning(), model.generate() y model.autoencoder.decode()
Guardar la salida: Guarde el audio generado usando torchaudio.save() con la frecuencia de muestreo apropiada
Preguntas Frecuentes de Zyphra Zonos
Zonos-v0.1 es un par de modelos expresivos de texto a voz (TTS) lanzados por Zyphra, que incluyen un transformador de 1.6B y un modelo híbrido de 1.6B con capacidades de clonación de voz de alta fidelidad. Ambos modelos se publican bajo la licencia Apache 2.0.
Video de Zyphra Zonos
Artículos Populares

Suno AI v4.5: La Última Actualización del Generador de Música con IA en 2025
May 6, 2025

Reseña de DeepAgent 2025: El agente de IA de nivel dios que se está volviendo viral en todas partes
Apr 27, 2025

Tutorial de Video de Abrazos con PixVerse V2.5 | Cómo Crear Videos de Abrazos con IA en 2025
Apr 22, 2025

Lanzamiento de PixVerse V2.5: ¡Crea Videos de IA Impecables Sin Retrasos Ni Distorsiones!
Apr 21, 2025
Análisis del Sitio Web de Zyphra Zonos
Tráfico y Clasificaciones de Zyphra Zonos
178.5K
Visitas Mensuales
#173145
Clasificación Global
#391
Clasificación por Categoría
Tendencias de Tráfico: Jan 2025-Apr 2025
Información de Usuarios de Zyphra Zonos
00:02:16
Duración Promedio de Visita
5.22
Páginas por Visita
38.63%
Tasa de Rebote de Usuarios
Principales Regiones de Zyphra Zonos
US: 39.01%
KR: 10.04%
IN: 9.79%
NG: 5.5%
DE: 4.53%
Others: 31.13%