
Zyphra Zonos
Zonos是一个开源的文本到语音(TTS)模型套件,具有两个1.6B参数模型(transformer和混合模型),具有高保真语音克隆、实时生成和富有表现力的语音功能,并在Apache 2.0许可下发布。
https://www.zyphra.com/post/beta-release-of-zonos-v0-1?ref=aipure&utm_source=aipure

产品信息
更新于:2025年02月16日
Zyphra Zonos 月度流量趋势
Zyphra Zonos 上个月收到了 5.2k 次访问,显示出 -5.4% 的轻微下降。根据我们的分析,这一趋势与人工智能工具领域的典型市场动态相符。
查看历史流量什么是 Zyphra Zonos
Zonos-v0.1是由Zyphra开发的尖端文本到语音模型套件,其中包括两个1.6B参数模型-一个transformer模型和一个SSM混合模型。它于2025年2月以beta版发布,经过大约200,000小时的语音数据训练,涵盖多种语言,但主要为英语。这些模型可以生成高度自然主义的语音,并具有仅需5-30秒参考音频的语音克隆功能,同时还可以控制语速、音高、音频质量和情感。两种模型均在Apache 2.0许可下发布,使其可以完全用于研究和开发。
Zyphra Zonos 的主要功能
Zyphra Zonos是一个先进的文本转语音(TTS)系统,具有两个16亿参数模型(Transformer和SSM混合模型),以Apache 2.0许可证发布。它提供高保真语音克隆功能、多语言支持以及实时语音生成,并能对包括情绪、语速和音调在内的各种声音特征进行富有表现力的控制。该系统输出高质量的44KHz音频,并提供开源模型权重和商业API服务。
高保真语音克隆: 仅使用5-30秒的语音样本即可高保真地克隆声音
表现力控制: 提供对语速、音调、音频质量和情绪(悲伤、恐惧、愤怒、快乐、惊讶)的精细控制
多语言支持: 支持包括英语、中文、日语、法语、西班牙语和德语在内的多种语言,并具有高质量的语音合成
双重架构: 具有Transformer和SSM混合模型,提供不同的性能特征和质量权衡
Zyphra Zonos 的使用场景
内容创作: 使创作者能够为视频、播客和有声读物生成具有自定义声音的配音和旁白
辅助功能解决方案: 为视力障碍用户提供具有自然和富有表现力的语音输出的文本转语音服务
语言学习: 通过提供多种语言的母语者质量的发音来支持语言教育
虚拟助手: 通过自然发声和情感上适当的语音响应来增强对话式AI系统
优点
在Apache 2.0许可下提供开源
高质量的输出,与专有解决方案相匹配或超过
具有竞争力的定价和免费层的灵活API
缺点
在生成开始/结束时音频伪影的浓度较高
由于高比特率要求,推理速度较慢
偶尔会出现与分布外句子的文本对齐问题
如何使用 Zyphra Zonos
安装先决条件: 在Ubuntu上安装用于音素化的eSpeak库,并通过pip安装uv:'pip install -U uv'
克隆存储库: 使用以下命令克隆Zonos存储库:'git clone https://github.com/Zyphra/Zonos.git',然后进入该目录:'cd Zonos'
选择部署方法: 对于Gradio界面:'docker compose up' OR 对于开发:'docker build -t Zonos .'
导入所需的库: 导入torch,torchaudio和所需的Zonos模块:'import torch, torchaudio, from zonos.model import Zonos, from zonos.conditioning import make_cond_dict'
加载模型: 使用Zonos.from_pretrained()加载transformer模型('Zyphra/Zonos-v0.1-transformer')或混合模型('Zyphra/Zonos-v0.1-hybrid'),并指定设备(例如'cuda')
准备音频输入: 使用torchaudio.load()加载参考音频文件,以创建用于语音克隆的说话人嵌入
创建说话人嵌入: 使用model.make_speaker_embedding()从输入音频生成说话人嵌入
设置条件: 使用make_cond_dict()创建包含文本、说话人嵌入、语言和其他可选参数(如情感、语速等)的条件字典
生成音频: 准备条件,生成音频代码,并使用model.prepare_conditioning()、model.generate()和model.autoencoder.decode()解码为波形
保存输出: 使用torchaudio.save()以适当的采样率保存生成的音频
Zyphra Zonos 常见问题
Zonos-v0.1是由Zyphra发布的两个富有表现力的文本到语音(TTS)模型,包括一个16亿参数的transformer模型和一个具有高保真语音克隆能力的16亿参数混合模型。这两个模型均以Apache 2.0许可证发布。
Zyphra Zonos 网站分析
Zyphra Zonos 流量和排名
5.2K
每月访问量
#3719544
全球排名
-
类别排名
流量趋势:Nov 2024-Jan 2025
Zyphra Zonos 用户洞察
00:00:20
平均访问时长
2.02
每次访问页数
36.6%
用户跳出率
Zyphra Zonos 的热门地区
US: 58.68%
ID: 23.61%
DE: 8.37%
JP: 6.69%
HK: 2.64%
Others: NAN%