
Hush
Hush 是一个 8 MB 的开源、CPU 实时语音增强模型,可在每 10 毫秒帧不到 1 毫秒的时间内抑制生产语音 AI 通话中的背景噪声和竞争说话人。
https://www.weya.ai/hush?ref=producthunt&utm_source=aipure

产品信息
更新于:2026年06月24日
什么是 Hush
Hush 是 weya AI 内部开发的开源降噪和语音增强模型,专为生产级语音 AI 系统而构建,例如电话代理、呼叫中心机器人、语音助手和实时转录管道。与许多主要针对通用噪声基准进行优化的增强模型不同,Hush 专为真实世界通话而设计,其中重叠的人声是 ASR 和下游对话式 AI 的常见故障点。它轻量级(约 1.8M 参数,约 8 MB),完全在 CPU 上实时运行,并以 Apache 2.0 许可证分发实用部署工件(PyTorch 检查点和 ONNX 生产包)。
Hush 的主要功能
Hush 是 weya AI 开发的一款开源、实时语音增强/噪声抑制模型,专为生产环境下的语音 AI 而构建。它完全在 CPU 上运行,具有极低的延迟(每 10 毫秒音频帧处理时间约低于 1 毫秒),体积轻巧(约 8 MB,约 1.8M 参数),并经过 10,000 多个小时的混合噪声音频训练,特别强调抑制竞争性背景说话人(重叠语音)以及典型的环境噪声。它与语言无关(基于声学特征操作),支持因果/流式处理,可以通过 ONNX 生产包或针对常见操作系统的预构建独立二进制文件进行部署,从而易于集成到语音管道中。
背景说话人抑制: 旨在隔离主要通话者并减少竞争性人声(语音座席和 ASR 的常见故障模式),而不仅仅是固定噪声。
实时 CPU 性能: 处理音频帧的速度足够快,适用于实时通话(据报道每 10 毫秒音频处理时间低于约 1 毫秒),无需 GPU。
轻量级占用空间: 模型尺寸小(约 8 MB;约 1.8M 参数),使其适用于资源有限的本地和边缘部署。
面向生产的部署选项: 附带 ONNX 生产包和独立库,可直接集成到 C/C++/Python 中,并提供适用于 Linux、macOS (Apple Silicon) 和 Windows 的预构建二进制文件。
在大规模真实世界噪声数据上训练: 在 10,000 多个小时的混合音频上训练;其中很大一部分包含中等 SIR 水平的重叠说话人,提高了真实通话的鲁棒性。
语言无关的增强: 因为它增强的是声学信号质量,而不是依赖于语言内容,所以适用于多种语言。
Hush 的使用场景
呼叫中心语音座席和 IVR: 清理嘈杂的电话音频并抑制背景谈话/电视声音,以提高座席理解力,减少重复提示,并稳定端到端语音机器人的性能。
实时转录管道: 通过增强语音清晰度并减少噪声和重叠说话人的干扰,提高实时或录制对话的 ASR 准确性。
BFSI 客户入职、销售和催收电话: 在受监管、高风险的电话(例如 KYC、贷款/催收对话)中提高可懂度,这些场景中嘈杂环境和说话人重叠很常见。
嘈杂环境中的语音助手: 通过减少环境噪声并专注于主要说话人,帮助助手在咖啡馆、街道、办公室和其他真实环境中发挥作用。
合规性和质量保证电话审查: 通过改善源信号,增强录制电话音频,以便进行更清晰的审计、质量监控和下游分析(摘要、意图检测)。
优点
开源 (Apache 2.0),专为企业/本地部署设计。
实时、纯 CPU 操作,具有极低的延迟和小型模型尺寸。
明确专注于抑制竞争性背景说话人,这是生产语音 AI 的常见痛点。
缺点
针对 16 kHz 流媒体/通话音频进行了优化;对于其他格式可能需要重采样和仔细的管道集成。
作为语音增强模型,在极端噪声/重叠条件下,根据输入域,可能会引入伪影或过度抑制。
最佳结果可能取决于适当的基于帧的流式集成(会话状态、帧大小),而不是简单的离线批处理。
如何使用 Hush
1) 打开 Hush 模型页面: 访问模型的官方 Hugging Face 存储库:https://huggingface.co/weya-ai/hush
2) 选择您的集成路径(快速演示与生产): 决定您是想 (a) 通过托管的 Hugging Face 界面试用 Hush 进行快速测试,还是 (b) 将其集成到您自己的语音 AI 堆栈中进行实时通话处理。
3) 在浏览器中试用 Hush(快速测试): 在 Hugging Face 模型页面上,使用可用的演示/小部件(如果显示)运行示例并比较嘈杂输入与增强输出。
4) 下载模型资产以供本地使用: 根据您的运行时需求,从 Hugging Face 存储库文件中下载检查点和/或 ONNX 生产包(onnx/ 目录下的 ONNX tarball)。
5) 使用 ONNX 进行 CPU 实时部署: 对于不使用 PyTorch 的生产用途,请使用预构建的 ONNX 包,以便 Hush 可以在 CPU 上完全实时运行(该模型旨在以典型 CPU 上的亚毫秒级计算处理约 10 毫秒的帧)。
6) 将其集成到您的音频管道的“前端”: 将 Hush 放置在 ASR/转录或您的语音代理之前,以便首先增强通话音频;这可以提高清晰度并减少背景噪声和竞争语音到达下游组件。
7) 以实时流方式馈送音频: 在实时音频帧(例如,10 毫秒块)上连续运行 Hush,以保持低延迟并维持通话和对话系统的实时行为。
8) 在您的目标环境中进行验证: 使用您的真实通话条件(咖啡馆、街道、办公室噪音、重叠说话人)进行测试。请注意,Hush 是在适度 SIR(约 12-24 dB)的背景说话人下训练的,因此极度响亮的竞争说话人可能无法完全抑制。
9) 了解什么不应作为输出使用: 如果您看到对“分离头”或背景说话人掩码的引用,请将其视为训练时的辅助正则化器(ERB 域软掩码),而不是用于生产的独立源分离输出。
10) 部署到您的目标操作系统: 使用 ONNX 方法将 CPU 运行时部署到您需要的地方(Linux、macOS 包括 Apple Silicon 或 Windows),以避免繁重的生产依赖。
Hush 常见问题
Hush 是一个开源的语音增强/噪声抑制模型,专为语音 AI 构建,可消除背景噪声并抑制真实通话音频中相互竞争的背景说话者。











