Fish Speech 常見問題

Question 1

什麼是 Fish Speech？

Accepted Answer

Fish Speech 是由 Fish Audio 開發的開源文字轉語音（TTS）模型。它經過 150,000 小時的多語言音頻數據訓練，能夠在中文、日文和英文中生成高質量的語音。

Question 2

Fish Speech 的主要特點是什麼？

Accepted Answer

主要特點包括：多語言支持（中文、日文、英文）、高質量自然聲音輸出、快速推理速度（約每秒 20 個標記）、定制選項，以及開源可用於開發人員進行實驗和修改。

Question 3

如何在本地機器上運行 Fish Speech？

Accepted Answer

您可以按照以下步驟在本地運行 Fish Speech：1) 創建一個 Python 3.10 虛擬環境，2) 安裝 PyTorch，3) 使用 pip 安裝 Fish Speech，4) 下載模型檢查點，5) 使用提供的命令運行 WebUI 或 API 服務器。

Question 4

Fish Speech 以什麼許可證發布？

Accepted Answer

Fish Speech 以 BSD-3-Clause 許可證發布，模型以 CC-BY-NC-SA-4.0 許可證發布。

Question 5

Fish Speech 能克隆聲音嗎？

Accepted Answer

是的，較新版本的 Fish Speech（例如 1.3 版本）提供僅需 10 秒音頻提示的聲音克隆功能。然而，用戶應注意在克隆聲音時可能涉及的法律和道德考慮。

Question 6

Fish Speech 與商業 TTS 解決方案相比如何？

Accepted Answer

Fish Speech 旨在與商業解決方案在輸出質量和功能方面競爭，同時保持開源和免費可用。它提供具有適當語調和口音的自然聲音語音。

Question 7

運行 Fish Speech 的系統要求是什麼？

Accepted Answer

Fish Speech 可以在消費級 GPU 上運行。例如，用戶報告在具有 24GB VRAM 的 3090Ti GPU 上成功運行。具體要求可能根據使用情況和模型版本而有所不同。

Fish Speech 使用方法