
Zyphra Zonos
Zonos é um conjunto de modelos de texto para fala (TTS) de código aberto com dois modelos de 1,6B de parâmetros (transformer e híbrido) com clonagem de voz de alta fidelidade, geração em tempo real e recursos de fala expressiva lançados sob a licença Apache 2.0.
https://www.zyphra.com/post/beta-release-of-zonos-v0-1?ref=aipure&utm_source=aipure

Informações do Produto
Atualizado:May 9, 2025
Tendências de Tráfego Mensal do Zyphra Zonos
A Zyphra Zonos experimentou uma queda de 43,9% no tráfego, caindo de 317,8 mil para 178,5 mil visitas. Apesar da introdução do sistema de IA ZR1-1.5B para resolver tarefas complexas de raciocínio matemático e desafios avançados de programação de software, a queda significativa sugere que essas atualizações não impactaram significativamente o engajamento dos usuários.
O que é Zyphra Zonos
Zonos-v0.1 é um conjunto de modelos de texto para fala de ponta desenvolvido pela Zyphra que inclui dois modelos de 1,6B de parâmetros - um modelo transformer e um modelo híbrido SSM. Lançado em versão beta em fevereiro de 2025, foi treinado com aproximadamente 200.000 horas de dados de fala cobrindo vários idiomas, embora principalmente inglês. Os modelos podem gerar fala altamente naturalista com recursos de clonagem de voz a partir de apenas 5 a 30 segundos de áudio de referência, ao mesmo tempo em que oferecem controle sobre taxa de fala, tom, qualidade de áudio e emoções. Ambos os modelos são lançados sob a licença Apache 2.0, tornando-os totalmente acessíveis para pesquisa e desenvolvimento.
Principais Recursos do Zyphra Zonos
Zyphra Zonos é um sistema de texto para fala (TTS) de ponta, apresentando dois modelos de 1,6B de parâmetros (transformador e híbrido SSM) lançados sob a licença Apache 2.0. Ele oferece recursos de clonagem de voz de alta fidelidade, suporte multilíngue e geração de fala em tempo real com controle expressivo sobre várias características vocais, incluindo emoções, taxa de fala e tom. O sistema produz áudio de alta qualidade de 44KHz e fornece pesos de modelo de código aberto e um serviço de API comercial.
Clonagem de Voz de Alta Fidelidade: Pode clonar vozes com alta fidelidade usando apenas 5 a 30 segundos de amostras de fala
Controle Expressivo: Oferece controle refinado sobre a taxa de fala, tom, qualidade de áudio e emoções (tristeza, medo, raiva, felicidade, surpresa)
Suporte Multilíngue: Suporta vários idiomas, incluindo inglês, chinês, japonês, francês, espanhol e alemão, com síntese de fala de alta qualidade
Arquitetura Dupla: Apresenta modelos híbridos de transformador e SSM, oferecendo diferentes características de desempenho e compensações de qualidade
Casos de Uso do Zyphra Zonos
Criação de Conteúdo: Permitir que os criadores gerem locuções e narrações com vozes personalizadas para vídeos, podcasts e audiolivros
Soluções de Acessibilidade: Fornecer serviços de texto para fala para usuários com deficiência visual com saída de voz natural e expressiva
Aprendizagem de Línguas: Apoiar a educação linguística, fornecendo pronúncia de qualidade de falantes nativos em vários idiomas
Assistentes Virtuais: Alimentar sistemas de IA conversacional com respostas de voz com som natural e emocionalmente apropriadas
Vantagens
Disponibilidade de código aberto sob a licença Apache 2.0
Saída de alta qualidade que corresponde ou excede as soluções proprietárias
API flexível com preços competitivos e nível gratuito
Desvantagens
Maior concentração de artefatos de áudio no início/fim da geração
Inferência mais lenta devido aos altos requisitos de taxa de bits
Problemas ocasionais de alinhamento de texto com frases fora da distribuição
Como Usar o Zyphra Zonos
Instalar Pré-requisitos: Instale a biblioteca eSpeak para fonetização no Ubuntu e instale o uv via pip: 'pip install -U uv'
Clonar Repositório: Clone o repositório Zonos usando: 'git clone https://github.com/Zyphra/Zonos.git' e entre no diretório: 'cd Zonos'
Escolher Método de Implantação: Para interface Gradio: 'docker compose up' OU para desenvolvimento: 'docker build -t Zonos .'
Importar Bibliotecas Necessárias: Importe torch, torchaudio e os módulos Zonos necessários: 'import torch, torchaudio, from zonos.model import Zonos, from zonos.conditioning import make_cond_dict'
Carregar Modelo: Carregue o modelo transformer ('Zyphra/Zonos-v0.1-transformer') ou o modelo híbrido ('Zyphra/Zonos-v0.1-hybrid') usando Zonos.from_pretrained() e especifique o dispositivo (por exemplo, 'cuda')
Preparar Entrada de Áudio: Carregue o arquivo de áudio de referência usando torchaudio.load() para criar incorporação de locutor para clonagem de voz
Criar Incorporação de Locutor: Gere a incorporação de locutor a partir do áudio de entrada usando model.make_speaker_embedding()
Definir Condicionamento: Crie um dicionário de condicionamento com texto, incorporação de locutor, idioma e outros parâmetros opcionais, como emoções, taxa de fala, etc., usando make_cond_dict()
Gerar Áudio: Prepare o condicionamento, gere códigos de áudio e decodifique para forma de onda usando model.prepare_conditioning(), model.generate() e model.autoencoder.decode()
Salvar Saída: Salve o áudio gerado usando torchaudio.save() com taxa de amostragem apropriada
Perguntas Frequentes do Zyphra Zonos
Zonos-v0.1 é um par de modelos expressivos de texto para fala (TTS) lançados pela Zyphra, apresentando um transformer de 1,6B e um modelo híbrido de 1,6B com capacidades de clonagem de voz de alta fidelidade. Ambos os modelos são lançados sob a licença Apache 2.0.
Vídeo do Zyphra Zonos
Artigos Populares

Atualização do Gemini 2.5 Pro Preview 05-06
May 7, 2025

Suno AI v4.5: A Melhor Atualização de Gerador de Música com IA em 2025
May 6, 2025

DeepAgent Review 2025: O Agente de IA de Nível Divino que está se tornando viral em todos os lugares
Apr 27, 2025

MiniMax Video-01(Hailuo AI): O Salto Revolucionário da IA na Geração de Texto para Vídeo em 2025
Apr 21, 2025
Análises do Site Zyphra Zonos
Tráfego e Classificações do Zyphra Zonos
178.5K
Visitas Mensais
#173145
Classificação Global
#391
Classificação por Categoria
Tendências de Tráfego: Jan 2025-Apr 2025
Insights dos Usuários do Zyphra Zonos
00:02:16
Duração Média da Visita
5.22
Páginas por Visita
38.63%
Taxa de Rejeição dos Usuários
Principais Regiões do Zyphra Zonos
US: 39.01%
KR: 10.04%
IN: 9.79%
NG: 5.5%
DE: 4.53%
Others: 31.13%