Fish Speech的主要特点是什么？

主要特点包括：多语言支持（中文、日文、英文）、高质量自然语音输出、快速推理速度（约每秒20个标记）、定制选项以及供开发者实验和修改的开源可用性。

我如何在本地机器上运行Fish Speech？

您可以通过以下步骤在本地运行Fish Speech：1) 创建一个Python 3.10虚拟环境，2) 安装PyTorch，3) 使用pip安装Fish Speech，4) 下载模型检查点，5) 使用提供的命令运行WebUI或API服务器。

Fish Speech以什么许可证发布？

Fish Speech以BSD-3-Clause许可证发布，模型则以CC-BY-NC-SA-4.0许可证发布。

Fish Speech能克隆声音吗？

是的，较新版本的Fish Speech（例如1.3版本）提供了仅需10秒音频提示即可克隆声音的能力。然而，用户在克隆声音时应意识到潜在的法律和伦理考虑。

Fish Speech与商业TTS解决方案相比如何？

Fish Speech旨在与商业解决方案在输出质量和功能方面竞争，同时保持开源和免费。它提供具有适当语调和口音的自然语音。

运行Fish Speech的系统要求是什么？

Fish Speech可以在消费级GPU上运行。例如，用户报告称在具有24GB VRAM的3090Ti GPU上成功运行。具体要求可能根据使用情况和模型版本而有所不同。

Fish Speech

WebsiteText to Speech Text to Video

Fish Speech 是一款开源的多语言文本转语音模型，能够在中文、日文和英文中生成高质量、自然语音，并支持可定制的声音和情感。

访问网站

推广此工具

https://fish.audio/?utm_source=aipure

概述
分析
视频
替代方案

产品信息

更新于：2025年10月20日

Fish Speech 月度流量趋势

Fish Speech 访问量增长了 5.2%，达到 186万 次访问。1.3版本 更新带来了增强的稳定性、情感表达和声音克隆功能，这可能促进了这一增长。Fish Audio 用户友好的界面和实惠的价格也吸引了更多用户。

查看历史流量

什么是 Fish Speech

Fish Speech 是由 Fish Audio 开发的一款强大的开源文本转语音（TTS）解决方案。它基于超过15万小时的音频数据进行训练，涵盖中文、日文和英文，提供接近人类水平的语言处理能力和广泛的表达能力。Fish Speech 旨在通过提供一个可在个人设备上轻松运行和微调的可定制模型，使高质量TTS技术普及化，让开发者、研究人员和爱好者都能受益。

Fish Speech 的主要功能

Fish Speech是由Fish Audio开发的开源文本转语音（TTS）模型，支持包括中文、日语和英语在内的多种语言。它采用VQ-GAN和LLAMA等先进技术，生成高质量、自然流畅的语音，并具有快速的推理速度。该模型已基于15万小时的多语言数据进行训练，并提供定制化功能。

多语言支持: 能够在中文、日语和英语中生成接近人类水平的语言处理能力的语音。

高质量输出: 产生自然流畅的语音，具有适当的语调、节奏和口音，可与商业解决方案媲美。

快速推理: 每秒处理约20个令牌，实现快速内容生成（在4090 GPU上每秒约20秒音频）。

可定制: 允许在自定义数据集上进行微调，以适应特定声音或领域。

开源: 以开源许可证发布，支持社区贡献和修改。

Fish Speech 的使用场景

虚拟助手: 为跨多种语言的AI助手和聊天机器人提供语音交互界面。

内容创作: 为视频、播客和其他多媒体内容生成配音。

无障碍功能: 将书面文本转换为语音，供视觉障碍用户或有阅读困难的人士使用。

语言学习: 提供多种语言的发音示例和阅读练习。

游戏与娱乐: 为视频游戏和互动娱乐应用创建动态语音内容。

优点

高质量、自然流畅的语音输出

快速推理速度

开源且可定制

多语言支持

缺点

训练和微调需要大量计算资源

在处理某些发音或专业词汇方面可能存在局限

用于语音克隆或模仿时可能涉及法律考虑

如何使用 Fish Speech

安装依赖: 通过运行以下命令安装所需包：pip3 install torch torchvision torchaudio

创建虚拟环境: 使用conda创建Python 3.10虚拟环境：conda create -n fish-speech python=3.10

激活环境: 激活虚拟环境：conda activate fish-speech

安装Fish Speech: 通过运行以下命令安装Fish Speech：pip3 install -e .

下载模型: 从Hugging Face下载所需模型：huggingface-cli download fishaudio/fish-speech-1.2-sft --local-dir checkpoints/fish-speech-1.2-sft

运行推理: 通过运行以下命令生成语音：python tools/llama/generate.py --text "您的文本内容" --checkpoint-path "checkpoints/fish-speech-1.2-sft"

解码音频: 使用VQGAN将生成的令牌解码为音频：python tools/vqgan/inference.py -i "codes_0.npy" --checkpoint-path "checkpoints/fish-speech-1.2-sft/firefly-gan-vq-fsq-4x1024-42hz-generator.pth"

启动Web UI（可选）: 通过运行以下命令启动Web界面：python -m tools.webui --llama-checkpoint-path "checkpoints/fish-speech-1.2-sft" --decoder-checkpoint-path "checkpoints/fish-speech-1.2-sft/firefly-gan-vq-fsq-4x1024-42hz-generator.pth"