Zyphra Zonos

Zyphra Zonos

Zonos是一个开源的文本到语音(TTS)模型套件,具有两个1.6B参数模型(transformer和混合模型),具有高保真语音克隆、实时生成和富有表现力的语音功能,并在Apache 2.0许可下发布。
https://www.zyphra.com/post/beta-release-of-zonos-v0-1?ref=aipure&utm_source=aipure
Zyphra Zonos

产品信息

更新于:2025年02月16日

Zyphra Zonos 月度流量趋势

Zyphra Zonos 上个月收到了 5.2k 次访问,显示出 -5.4% 的轻微下降。根据我们的分析,这一趋势与人工智能工具领域的典型市场动态相符。
查看历史流量

什么是 Zyphra Zonos

Zonos-v0.1是由Zyphra开发的尖端文本到语音模型套件,其中包括两个1.6B参数模型-一个transformer模型和一个SSM混合模型。它于2025年2月以beta版发布,经过大约200,000小时的语音数据训练,涵盖多种语言,但主要为英语。这些模型可以生成高度自然主义的语音,并具有仅需5-30秒参考音频的语音克隆功能,同时还可以控制语速、音高、音频质量和情感。两种模型均在Apache 2.0许可下发布,使其可以完全用于研究和开发。

Zyphra Zonos 的主要功能

Zyphra Zonos是一个先进的文本转语音(TTS)系统,具有两个16亿参数模型(Transformer和SSM混合模型),以Apache 2.0许可证发布。它提供高保真语音克隆功能、多语言支持以及实时语音生成,并能对包括情绪、语速和音调在内的各种声音特征进行富有表现力的控制。该系统输出高质量的44KHz音频,并提供开源模型权重和商业API服务。
高保真语音克隆: 仅使用5-30秒的语音样本即可高保真地克隆声音
表现力控制: 提供对语速、音调、音频质量和情绪(悲伤、恐惧、愤怒、快乐、惊讶)的精细控制
多语言支持: 支持包括英语、中文、日语、法语、西班牙语和德语在内的多种语言,并具有高质量的语音合成
双重架构: 具有Transformer和SSM混合模型,提供不同的性能特征和质量权衡

Zyphra Zonos 的使用场景

内容创作: 使创作者能够为视频、播客和有声读物生成具有自定义声音的配音和旁白
辅助功能解决方案: 为视力障碍用户提供具有自然和富有表现力的语音输出的文本转语音服务
语言学习: 通过提供多种语言的母语者质量的发音来支持语言教育
虚拟助手: 通过自然发声和情感上适当的语音响应来增强对话式AI系统

优点

在Apache 2.0许可下提供开源
高质量的输出,与专有解决方案相匹配或超过
具有竞争力的定价和免费层的灵活API

缺点

在生成开始/结束时音频伪影的浓度较高
由于高比特率要求,推理速度较慢
偶尔会出现与分布外句子的文本对齐问题

如何使用 Zyphra Zonos

安装先决条件: 在Ubuntu上安装用于音素化的eSpeak库,并通过pip安装uv:'pip install -U uv'
克隆存储库: 使用以下命令克隆Zonos存储库:'git clone https://github.com/Zyphra/Zonos.git',然后进入该目录:'cd Zonos'
选择部署方法: 对于Gradio界面:'docker compose up' OR 对于开发:'docker build -t Zonos .'
导入所需的库: 导入torch,torchaudio和所需的Zonos模块:'import torch, torchaudio, from zonos.model import Zonos, from zonos.conditioning import make_cond_dict'
加载模型: 使用Zonos.from_pretrained()加载transformer模型('Zyphra/Zonos-v0.1-transformer')或混合模型('Zyphra/Zonos-v0.1-hybrid'),并指定设备(例如'cuda')
准备音频输入: 使用torchaudio.load()加载参考音频文件,以创建用于语音克隆的说话人嵌入
创建说话人嵌入: 使用model.make_speaker_embedding()从输入音频生成说话人嵌入
设置条件: 使用make_cond_dict()创建包含文本、说话人嵌入、语言和其他可选参数(如情感、语速等)的条件字典
生成音频: 准备条件,生成音频代码,并使用model.prepare_conditioning()、model.generate()和model.autoencoder.decode()解码为波形
保存输出: 使用torchaudio.save()以适当的采样率保存生成的音频

Zyphra Zonos 常见问题

Zonos-v0.1是由Zyphra发布的两个富有表现力的文本到语音(TTS)模型,包括一个16亿参数的transformer模型和一个具有高保真语音克隆能力的16亿参数混合模型。这两个模型均以Apache 2.0许可证发布。

Zyphra Zonos 网站分析

Zyphra Zonos 流量和排名
5.2K
每月访问量
#3719544
全球排名
-
类别排名
流量趋势:Nov 2024-Jan 2025
Zyphra Zonos 用户洞察
00:00:20
平均访问时长
2.02
每次访问页数
36.6%
用户跳出率
Zyphra Zonos 的热门地区
  1. US: 58.68%

  2. ID: 23.61%

  3. DE: 8.37%

  4. JP: 6.69%

  5. HK: 2.64%

  6. Others: NAN%

与 Zyphra Zonos 类似的最新 AI 工具

MicVoice.Ai
MicVoice.Ai
MicVoice.Ai是一个全方位的AI语音生成平台,将书面文本转换为高质量、自然的语音,支持17多种语言,提供超过5000种逼真的AI语音。
Narrai
Narrai
Narrai是一款AI驱动的移动应用,通过自动生成相关剧本并提供多种叙述者角色,即时为短视频创建语音旁白和背景音乐。
Vagent
Vagent
Vagent是一个轻量级的语音接口,使用户可以通过语音命令与自定义AI代理互动,提供了一种自然和直观的方式来控制自动化,支持60多种语言。
F5 TTS
F5 TTS
F5-TTS 是一种最先进的非自回归文本转语音系统,使用 Flow Matching 和 Diffusion Transformer 技术生成高度自然和富有表现力的语音,具有零样本语音克隆功能。