Hush 为语音 AI 系统解决了什么问题？

Hush 提高了实时通话音频的质量，因此下游系统（ASR、语音代理、呼叫中心机器人、转录管道）可以更可靠地理解主要说话者，尤其是在嘈杂的环境和声音重叠的情况下。

Hush 是否实时运行，它需要 GPU 吗？

是的，Hush 旨在实时完全在 CPU 上运行（通常每 10 毫秒音频帧处理时间低于约 1 毫秒），并且不需要 GPU。

Hush 提到了哪些训练数据特征？

Hush 经过 10,000 多个小时的混合噪声音频训练，其中约 60% 的数据集中存在相互竞争的人声，信噪比 (SIR) 为 12-24 dB。

Hush 基于什么架构？

Hush 基于 DeepFilterNet3 架构，并包含一个带有辅助分离头的增强功能，以更好地抑制背景说话者。

Hush 如何在生产中部署？

Hush 可以通过 ONNX 部署（提供预构建的 ONNX 生产包），从而实现跨 Linux、macOS (Apple Silicon) 和 Windows 的纯 CPU 部署；该存储库还引用了一个预构建的 Weya NC 独立库，用于无需 PyTorch 的生产部署。

Hush 是开源的吗？它使用什么许可证？

是的。模型权重和源代码在 Apache 2.0 许可下公开可用（例如，在 Hugging Face 和 GitHub 上）。

Hush 在发布时的公开基准测试中表现如何？

发布时，Hush 在 Hugging Face 的 Audio-to-Audio 排行榜上排名第 5，使其成为同类顶级开源模型之一。

Hush

WebsiteFreemiumVoice & Audio Editing

Hush 是一个 8 MB 的开源、CPU 实时语音增强模型，可在每 10 毫秒帧不到 1 毫秒的时间内抑制生产语音 AI 通话中的背景噪声和竞争说话人。

访问网站

推广此工具

https://www.weya.ai/hush?ref=producthunt&utm_source=aipure

概述
视频
替代方案

产品信息

更新于：2026年07月08日

什么是 Hush

Hush 是 weya AI 内部开发的开源降噪和语音增强模型，专为生产级语音 AI 系统而构建，例如电话代理、呼叫中心机器人、语音助手和实时转录管道。与许多主要针对通用噪声基准进行优化的增强模型不同，Hush 专为真实世界通话而设计，其中重叠的人声是 ASR 和下游对话式 AI 的常见故障点。它轻量级（约 1.8M 参数，约 8 MB），完全在 CPU 上实时运行，并以 Apache 2.0 许可证分发实用部署工件（PyTorch 检查点和 ONNX 生产包）。

Hush 的主要功能

Hush 是 weya AI 开发的一款开源、实时语音增强/噪声抑制模型，专为生产环境下的语音 AI 而构建。它完全在 CPU 上运行，具有极低的延迟（每 10 毫秒音频帧处理时间约低于 1 毫秒），体积轻巧（约 8 MB，约 1.8M 参数），并经过 10,000 多个小时的混合噪声音频训练，特别强调抑制竞争性背景说话人（重叠语音）以及典型的环境噪声。它与语言无关（基于声学特征操作），支持因果/流式处理，可以通过 ONNX 生产包或针对常见操作系统的预构建独立二进制文件进行部署，从而易于集成到语音管道中。

背景说话人抑制: 旨在隔离主要通话者并减少竞争性人声（语音座席和 ASR 的常见故障模式），而不仅仅是固定噪声。

实时 CPU 性能: 处理音频帧的速度足够快，适用于实时通话（据报道每 10 毫秒音频处理时间低于约 1 毫秒），无需 GPU。

轻量级占用空间: 模型尺寸小（约 8 MB；约 1.8M 参数），使其适用于资源有限的本地和边缘部署。

面向生产的部署选项: 附带 ONNX 生产包和独立库，可直接集成到 C/C++/Python 中，并提供适用于 Linux、macOS (Apple Silicon) 和 Windows 的预构建二进制文件。

在大规模真实世界噪声数据上训练: 在 10,000 多个小时的混合音频上训练；其中很大一部分包含中等 SIR 水平的重叠说话人，提高了真实通话的鲁棒性。

语言无关的增强: 因为它增强的是声学信号质量，而不是依赖于语言内容，所以适用于多种语言。

Hush 的使用场景

呼叫中心语音座席和 IVR: 清理嘈杂的电话音频并抑制背景谈话/电视声音，以提高座席理解力，减少重复提示，并稳定端到端语音机器人的性能。

实时转录管道: 通过增强语音清晰度并减少噪声和重叠说话人的干扰，提高实时或录制对话的 ASR 准确性。

BFSI 客户入职、销售和催收电话: 在受监管、高风险的电话（例如 KYC、贷款/催收对话）中提高可懂度，这些场景中嘈杂环境和说话人重叠很常见。

嘈杂环境中的语音助手: 通过减少环境噪声并专注于主要说话人，帮助助手在咖啡馆、街道、办公室和其他真实环境中发挥作用。

合规性和质量保证电话审查: 通过改善源信号，增强录制电话音频，以便进行更清晰的审计、质量监控和下游分析（摘要、意图检测）。

优点

开源 (Apache 2.0)，专为企业/本地部署设计。

实时、纯 CPU 操作，具有极低的延迟和小型模型尺寸。

明确专注于抑制竞争性背景说话人，这是生产语音 AI 的常见痛点。

缺点

针对 16 kHz 流媒体/通话音频进行了优化；对于其他格式可能需要重采样和仔细的管道集成。

作为语音增强模型，在极端噪声/重叠条件下，根据输入域，可能会引入伪影或过度抑制。

最佳结果可能取决于适当的基于帧的流式集成（会话状态、帧大小），而不是简单的离线批处理。

如何使用 Hush

1) 打开 Hush 模型页面: 访问模型的官方 Hugging Face 存储库：https://huggingface.co/weya-ai/hush

2) 选择您的集成路径（快速演示与生产）: 决定您是想 (a) 通过托管的 Hugging Face 界面试用 Hush 进行快速测试，还是 (b) 将其集成到您自己的语音 AI 堆栈中进行实时通话处理。

3) 在浏览器中试用 Hush（快速测试）: 在 Hugging Face 模型页面上，使用可用的演示/小部件（如果显示）运行示例并比较嘈杂输入与增强输出。

4) 下载模型资产以供本地使用: 根据您的运行时需求，从 Hugging Face 存储库文件中下载检查点和/或 ONNX 生产包（onnx/ 目录下的 ONNX tarball）。

5) 使用 ONNX 进行 CPU 实时部署: 对于不使用 PyTorch 的生产用途，请使用预构建的 ONNX 包，以便 Hush 可以在 CPU 上完全实时运行（该模型旨在以典型 CPU 上的亚毫秒级计算处理约 10 毫秒的帧）。

6) 将其集成到您的音频管道的“前端”: 将 Hush 放置在 ASR/转录或您的语音代理之前，以便首先增强通话音频；这可以提高清晰度并减少背景噪声和竞争语音到达下游组件。

7) 以实时流方式馈送音频: 在实时音频帧（例如，10 毫秒块）上连续运行 Hush，以保持低延迟并维持通话和对话系统的实时行为。

8) 在您的目标环境中进行验证: 使用您的真实通话条件（咖啡馆、街道、办公室噪音、重叠说话人）进行测试。请注意，Hush 是在适度 SIR（约 12-24 dB）的背景说话人下训练的，因此极度响亮的竞争说话人可能无法完全抑制。

9) 了解什么不应作为输出使用: 如果您看到对“分离头”或背景说话人掩码的引用，请将其视为训练时的辅助正则化器（ERB 域软掩码），而不是用于生产的独立源分离输出。

10) 部署到您的目标操作系统: 使用 ONNX 方法将 CPU 运行时部署到您需要的地方（Linux、macOS 包括 Apple Silicon 或 Windows），以避免繁重的生产依赖。

Hush 常见问题

Hush 是一个开源的语音增强/噪声抑制模型，专为语音 AI 构建，可消除背景噪声并抑制真实通话音频中相互竞争的背景说话者。

Hush 视频

与 Hush 类似的最新 AI 工具

EchoWave

FreemiumAI Video Editing Voice & Audio Editing AI Social Media Assistant

EchoWave 是一个在线视频和音频编辑平台，使创作者能够将音频内容转换为带有波形可视化、字幕和效果的吸引人视频，以便在社交媒体上分享。

AIdeaflow Podcast

FreeAI Podcast Assistant Text to Speech Voice & Audio Editing

AIdeaflow Podcast 是一个 AI 驱动的平台，将文本转换为引人入胜的播客内容，支持 120+ 种语音和多种语言的自然对话。

TranscribetoText.AI

FreemiumTranscription AI Speech Recognition Voice & Audio Editing

TranscribeToText.AI 是一个强大的在线转录服务，可以将音频和视频文件转换为文本，支持 120 多种语言，准确率达到 99.9%，提供无限的转录访问和灵活的输出选项。

Rift Podcast

Free TrialAI Podcast Assistant Text to Speech Voice & Audio Editing

Rift Podcast是一款AI驱动的应用程序，将网络内容转换为个性化的音频播客，从各种技术平台策划独家见解，并在每天15分钟内交付。

类似 Hush 的热门 AI 工具

W-Okada Voice Changer

FreemiumAI Voice Changer Voice & Audio Editing AI Voice Chat Generator

W-Okada语音变声器是一款使用AI进行高质量低延迟实时语音转换的开源软件。

FnKey

FreeText to Speech Voice & Audio Editing

FnKey是一个轻量级的macOS菜单栏应用程序，通过按住Fn键说话来启用快速的语音转文本转录，并在释放时自动粘贴转录的文本。

Background noise removal

FreeAI Noise Cancellation Voice & Audio Editing

一款强大的 Chrome 扩展，使用先进的 AI 技术从音频和视频文件中消除不必要的背景噪音，提供实时降噪功能，实现水晶般清晰的音质。

Audio player for ChatGPT

FreeText to Speech Voice & Audio Editing

一个 Chrome 扩展程序，通过添加一个用户友好的音频播放器来增强 ChatGPT 的朗读功能，该播放器具有播放/暂停、进度条和持续时间显示等基本控件。

排名

提交和推广New

Hush

产品信息

什么是 Hush

Hush 的主要功能

Hush 的使用场景

优点

缺点

如何使用 Hush

Hush 常见问题

1. Weya AI 的 Hush 是什么？

2. Hush 为语音 AI 系统解决了什么问题？

3. Hush 是否实时运行，它需要 GPU 吗？

4. Hush 模型有多大？

5. Hush 提到了哪些训练数据特征？

6. Hush 基于什么架构？

7. Hush 如何在生产中部署？

8. Hush 是开源的吗？它使用什么许可证？

9. Hush 在发布时的公开基准测试中表现如何？

Hush 视频

热门文章

与 Hush 类似的最新 AI 工具

类似 Hush 的热门 AI 工具