
Zyphra Zonos
Zonos 是一個開源文字轉語音 (TTS) 模型套件,具有兩個 16 億參數模型(Transformer 和混合模型),具有高傳真聲音複製、即時生成和富有表現力的語音功能,並以 Apache 2.0 許可證發布。
https://www.zyphra.com/post/beta-release-of-zonos-v0-1?ref=aipure&utm_source=aipure

產品資訊
更新時間:2025年05月09日
Zyphra Zonos 每月流量趨勢
Zyphra Zonos 的流量下降了 43.9%,從 317.8K 降至 178.5K 次訪問。儘管引入了用於解決複雜數學推理任務和高級軟體編程挑戰的 ZR1–1.5B 人工智能系統,但顯著的下降表明這些更新並未對用戶參與度產生重大影響。
什麼是 Zyphra Zonos
Zonos-v0.1 是 Zyphra 開發的尖端文字轉語音模型套件,包括兩個 16 億參數模型 - 一個 Transformer 模型和一個 SSM 混合模型。它於 2025 年 2 月以 Beta 版發布,並在約 200,000 小時的語音資料上進行了訓練,涵蓋多種語言,但主要為英語。這些模型可以生成高度自然逼真的語音,並具有僅需 5-30 秒參考音訊的聲音複製功能,同時還可以控制語速、音高、音訊品質和情感。這兩個模型均以 Apache 2.0 許可證發布,使其完全可供研究和開發使用。
Zyphra Zonos 的主要功能
Zyphra Zonos 是一個尖端的文本到語音(TTS)系統,具有兩個 1.6B 參數模型(Transformer 和 SSM 混合模型),並以 Apache 2.0 許可證發布。它提供高保真語音克隆功能、多語言支持以及即時語音生成,並可對各種聲音特徵(包括情緒、語速和音調)進行表達控制。該系統輸出高品質的 44KHz 音訊,並提供開源模型權重和商業 API 服務。
高保真語音克隆: 只需 5-30 秒的語音樣本即可高保真地克隆聲音
表達控制: 提供對語速、音調、音訊質量和情緒(悲傷、恐懼、憤怒、快樂、驚訝)的精細控制
多語言支持: 支持包括英語、中文、日語、法語、西班牙語和德語在內的多種語言,並具有高品質的語音合成
雙重架構: 具有 Transformer 和 SSM 混合模型,提供不同的性能特徵和質量權衡
Zyphra Zonos 的使用案例
內容創作: 使創作者能夠為影片、Podcast 和有聲讀物生成具有自定義聲音的旁白和敘述
輔助功能解決方案: 為視障用戶提供具有自然且富有表現力的語音輸出的文本到語音服務
語言學習: 通過提供多種語言的母語者品質發音來支持語言教育
虛擬助手: 通過自然發聲且情感上適當的語音回應來增強對話式 AI 系統的功能
優點
在 Apache 2.0 許可證下提供開源
高品質的輸出,可媲美或超過專有解決方案
具有競爭力的定價和免費層的靈活 API
缺點
在生成開始/結束時,音訊偽影的濃度較高
由於高位元率要求,推論速度較慢
偶爾會出現與分佈外句子的文本對齊問題
如何使用 Zyphra Zonos
安裝先決條件: 在 Ubuntu 上安裝 eSpeak 函式庫以進行音素化,並透過 pip 安裝 uv:'pip install -U uv'
複製儲存庫: 使用以下命令複製 Zonos 儲存庫:'git clone https://github.com/Zyphra/Zonos.git' 並 cd 進入目錄:'cd Zonos'
選擇部署方法: 對於 Gradio 介面:'docker compose up' OR 對於開發:'docker build -t Zonos .'
匯入所需的函式庫: 匯入 torch、torchaudio 和所需的 Zonos 模組:'import torch, torchaudio, from zonos.model import Zonos, from zonos.conditioning import make_cond_dict'
載入模型: 使用 Zonos.from_pretrained() 載入 Transformer 模型 ('Zyphra/Zonos-v0.1-transformer') 或混合模型 ('Zyphra/Zonos-v0.1-hybrid'),並指定裝置(例如 'cuda')
準備音訊輸入: 使用 torchaudio.load() 載入參考音訊檔案,以建立用於聲音複製的說話者嵌入
建立說話者嵌入: 使用 model.make_speaker_embedding() 從輸入音訊產生說話者嵌入
設定條件: 使用 make_cond_dict() 建立包含文字、說話者嵌入、語言和其他可選參數(如情感、語速等)的條件字典
產生音訊: 準備條件,產生音訊代碼,並使用 model.prepare_conditioning()、model.generate() 和 model.autoencoder.decode() 解碼為波形
儲存輸出: 使用 torchaudio.save() 以適當的取樣率儲存產生的音訊
Zyphra Zonos 常見問題
Zonos-v0.1是由Zyphra發布的一對富有表現力的文本到語音(TTS)模型,具有一個16億參數的Transformer模型和一個16億參數的混合模型,具有高保真度的聲音克隆功能。這兩個模型均以Apache 2.0許可證發布。
Zyphra Zonos 網站分析
Zyphra Zonos 流量和排名
178.5K
每月訪問量
#173145
全球排名
#391
類別排名
流量趨勢:Jan 2025-Apr 2025
Zyphra Zonos 用戶洞察
00:02:16
平均訪問時長
5.22
每次訪問的頁面數
38.63%
用戶跳出率
Zyphra Zonos 的主要地區
US: 39.01%
KR: 10.04%
IN: 9.79%
NG: 5.5%
DE: 4.53%
Others: 31.13%