Zyphra Zonos

Zyphra Zonos

Zonos es un conjunto de modelos de texto a voz (TTS) de código abierto que incluye dos modelos de 1.600 millones de parámetros (transformador e híbrido) con clonación de voz de alta fidelidad, generación en tiempo real y capacidades de voz expresiva publicadas bajo la licencia Apache 2.0.
https://www.zyphra.com/post/beta-release-of-zonos-v0-1?ref=aipure&utm_source=aipure
Zyphra Zonos

Información del Producto

Actualizado:16/02/2025

Tendencias de Tráfico Mensual de Zyphra Zonos

Zyphra Zonos recibió 5.2k visitas el mes pasado, demostrando un Ligero Descenso de -5.4%. Según nuestro análisis, esta tendencia se alinea con la dinámica típica del mercado en el sector de herramientas de IA.
Ver historial de tráfico

¿Qué es Zyphra Zonos?

Zonos-v0.1 es un conjunto de modelos de texto a voz de vanguardia desarrollado por Zyphra que incluye dos modelos de 1.600 millones de parámetros: un modelo transformador y un modelo híbrido SSM. Lanzado en versión beta en febrero de 2025, se entrenó con aproximadamente 200.000 horas de datos de voz que cubren varios idiomas, aunque principalmente inglés. Los modelos pueden generar voz muy naturalista con capacidades de clonación de voz a partir de sólo 5-30 segundos de audio de referencia, al tiempo que ofrecen control sobre la velocidad de habla, el tono, la calidad de audio y las emociones. Ambos modelos se publican bajo la licencia Apache 2.0, lo que los hace totalmente accesibles para la investigación y el desarrollo.

Características Principales de Zyphra Zonos

Zyphra Zonos es un sistema de texto a voz (TTS) de vanguardia que presenta dos modelos de 1.6B de parámetros (transformador e híbrido SSM) lanzados bajo la licencia Apache 2.0. Ofrece capacidades de clonación de voz de alta fidelidad, soporte multilingüe y generación de voz en tiempo real con control expresivo sobre varias características vocales, incluidas las emociones, la velocidad del habla y el tono. El sistema produce audio de alta calidad de 44 KHz y proporciona tanto los pesos del modelo de código abierto como un servicio de API comercial.
Clonación de voz de alta fidelidad: Puede clonar voces con alta fidelidad utilizando solo 5-30 segundos de muestras de voz
Control expresivo: Ofrece un control preciso sobre la velocidad del habla, el tono, la calidad del audio y las emociones (tristeza, miedo, ira, felicidad, sorpresa)
Soporte multilingüe: Admite varios idiomas, incluidos inglés, chino, japonés, francés, español y alemán, con síntesis de voz de alta calidad
Arquitectura dual: Presenta modelos híbridos de transformador y SSM, que ofrecen diferentes características de rendimiento y compensaciones de calidad

Casos de Uso de Zyphra Zonos

Creación de contenido: Permite a los creadores generar voces en off y narraciones con voces personalizadas para videos, podcasts y audiolibros
Soluciones de accesibilidad: Proporciona servicios de texto a voz para usuarios con discapacidad visual con una salida de voz natural y expresiva
Aprendizaje de idiomas: Apoya la educación de idiomas proporcionando una pronunciación de calidad de hablante nativo en varios idiomas
Asistentes virtuales: Potencia los sistemas de IA conversacional con respuestas de voz de sonido natural y emocionalmente apropiadas

Ventajas

Disponibilidad de código abierto bajo la licencia Apache 2.0
Salida de alta calidad que iguala o supera las soluciones patentadas
API flexible con precios competitivos y nivel gratuito

Desventajas

Mayor concentración de artefactos de audio al inicio/final de la generación
Inferencia más lenta debido a los altos requisitos de velocidad de bits
Problemas ocasionales de alineación de texto con oraciones fuera de distribución

Cómo Usar Zyphra Zonos

Instalar los requisitos previos: Instale la biblioteca eSpeak para la fonetización en Ubuntu e instale uv a través de pip: 'pip install -U uv'
Clonar el repositorio: Clone el repositorio de Zonos usando: 'git clone https://github.com/Zyphra/Zonos.git' y cd en el directorio: 'cd Zonos'
Elegir el método de implementación: Para la interfaz Gradio: 'docker compose up' O para el desarrollo: 'docker build -t Zonos .'
Importar las bibliotecas necesarias: Importe torch, torchaudio y los módulos Zonos necesarios: 'import torch, torchaudio, from zonos.model import Zonos, from zonos.conditioning import make_cond_dict'
Cargar el modelo: Cargue el modelo transformador ('Zyphra/Zonos-v0.1-transformer') o el modelo híbrido ('Zyphra/Zonos-v0.1-hybrid') usando Zonos.from_pretrained() y especifique el dispositivo (por ejemplo, 'cuda')
Preparar la entrada de audio: Cargue el archivo de audio de referencia usando torchaudio.load() para crear la incrustación del hablante para la clonación de voz
Crear la incrustación del hablante: Genere la incrustación del hablante a partir del audio de entrada usando model.make_speaker_embedding()
Establecer el condicionamiento: Cree un diccionario de condicionamiento con texto, incrustación del hablante, idioma y otros parámetros opcionales como emociones, velocidad de habla, etc. usando make_cond_dict()
Generar audio: Prepare el condicionamiento, genere códigos de audio y decodifique a forma de onda usando model.prepare_conditioning(), model.generate() y model.autoencoder.decode()
Guardar la salida: Guarde el audio generado usando torchaudio.save() con la frecuencia de muestreo apropiada

Preguntas Frecuentes de Zyphra Zonos

Zonos-v0.1 es un par de modelos expresivos de texto a voz (TTS) lanzados por Zyphra, que incluyen un transformador de 1.6B y un modelo híbrido de 1.6B con capacidades de clonación de voz de alta fidelidad. Ambos modelos se publican bajo la licencia Apache 2.0.

Análisis del Sitio Web de Zyphra Zonos

Tráfico y Clasificaciones de Zyphra Zonos
5.2K
Visitas Mensuales
#3719544
Clasificación Global
-
Clasificación por Categoría
Tendencias de Tráfico: Nov 2024-Jan 2025
Información de Usuarios de Zyphra Zonos
00:00:20
Duración Promedio de Visita
2.02
Páginas por Visita
36.6%
Tasa de Rebote de Usuarios
Principales Regiones de Zyphra Zonos
  1. US: 58.68%

  2. ID: 23.61%

  3. DE: 8.37%

  4. JP: 6.69%

  5. HK: 2.64%

  6. Others: NAN%

Últimas herramientas de IA similares a Zyphra Zonos

MicVoice.Ai
MicVoice.Ai
MicVoice.Ai es una plataforma generadora de voz de IA todo en uno que transforma texto escrito en voz de alta calidad y sonido natural con más de 5000 voces de IA realistas que soportan más de 17 idiomas.
Narrai
Narrai
Narrai es una aplicación móvil impulsada por IA que crea instantáneamente narración de voz y música de fondo para videos cortos al generar automáticamente guiones relevantes y ofrecer múltiples personalidades de narradores.
Vagent
Vagent
Vagent es una interfaz de voz ligera que permite a los usuarios interactuar con agentes de IA personalizados a través de comandos de voz, proporcionando una forma natural e intuitiva de controlar automatizaciones con soporte para más de 60 idiomas.
F5 TTS
F5 TTS
F5-TTS es un sistema de texto a voz de última generación, no autorregresivo, que utiliza técnicas de Flow Matching y Diffusion Transformer para generar habla altamente natural y expresiva con capacidades de clonación de voz de cero disparos.