Fish Speech 常见问题

Question 1

什么是Fish Speech？

Accepted Answer

Fish Speech是由Fish Audio开发的一个开源文本转语音（TTS）模型。它基于15万小时的多语言音频数据训练而成，能够生成高质量的中文、日文和英文语音。

Question 2

Fish Speech的主要特点是什么？

Accepted Answer

主要特点包括：多语言支持（中文、日文、英文）、高质量自然语音输出、快速推理速度（约每秒20个标记）、定制选项以及供开发者实验和修改的开源可用性。

Question 3

我如何在本地机器上运行Fish Speech？

Accepted Answer

您可以通过以下步骤在本地运行Fish Speech：1) 创建一个Python 3.10虚拟环境，2) 安装PyTorch，3) 使用pip安装Fish Speech，4) 下载模型检查点，5) 使用提供的命令运行WebUI或API服务器。

Question 4

Fish Speech以什么许可证发布？

Accepted Answer

Fish Speech以BSD-3-Clause许可证发布，模型则以CC-BY-NC-SA-4.0许可证发布。

Question 5

Fish Speech能克隆声音吗？

Accepted Answer

是的，较新版本的Fish Speech（例如1.3版本）提供了仅需10秒音频提示即可克隆声音的能力。然而，用户在克隆声音时应意识到潜在的法律和伦理考虑。

Question 6

Fish Speech与商业TTS解决方案相比如何？

Accepted Answer

Fish Speech旨在与商业解决方案在输出质量和功能方面竞争，同时保持开源和免费。它提供具有适当语调和口音的自然语音。

Question 7

运行Fish Speech的系统要求是什么？

Accepted Answer

Fish Speech可以在消费级GPU上运行。例如，用户报告称在具有24GB VRAM的3090Ti GPU上成功运行。具体要求可能根据使用情况和模型版本而有所不同。

Fish Speech 使用方法