Hush

Hush

WebsiteFreemiumVoice & Audio Editing
Hush 是一個 8 MB 的開源、CPU 實時語音增強模型,可在每 10 毫秒幀不到 1 毫秒的時間內抑制背景噪音和競爭說話者,用於生產語音 AI 通話。
https://www.weya.ai/hush?ref=producthunt&utm_source=aipure
Hush

產品資訊

更新時間:2026年06月24日

什麼是 Hush

Hush 是 weya AI 內部開源的噪音抑制和語音增強模型,專為生產型語音 AI 系統而建置,例如電話代理、呼叫中心機器人、語音助理和實時轉錄管道。與許多主要針對通用噪音基準優化的增強模型不同,Hush 專為真實世界的通話而設計,在這些通話中,重疊的人聲是 ASR 和下游對話式 AI 經常遇到的失敗點。它輕巧(約 1.8M 參數,約 8 MB),完全在 CPU 上實時運行,並以 Apache 2.0 許可證分發,包含實用的部署工件(PyTorch 檢查點和 ONNX 生產套件)。

Hush 的主要功能

Hush 是 weya AI 開發的一個開源、即時語音增強/噪音抑制模型,專為生產型語音 AI 而建置。它完全在 CPU 上運行,延遲極低(每 10 毫秒音訊幀處理時間約不到 1 毫秒),輕巧(約 8 MB,約 1.8M 參數),並經過 10,000 多小時的混合噪音音訊訓練,特別強調抑制競爭性背景說話者(重疊語音)以及典型的環境噪音。它與語言無關(基於聲學特徵操作)、支援因果/串流,並且可以透過 ONNX 生產套件或針對常見作業系統的預建獨立二進位檔部署,使其易於整合到語音管道中。
背景說話者抑制: 旨在隔離主要通話者並減少競爭性人聲(語音助理和 ASR 的常見故障模式),而不僅僅是靜態噪音。
即時 CPU 性能: 處理音訊幀的速度足以應付即時通話(據報導每 10 毫秒音訊處理時間不到 1 毫秒),無需 GPU。
輕量級佔用空間: 模型尺寸小(約 8 MB;約 1.8M 參數),使其適用於資源有限的內部部署和邊緣部署。
面向生產的部署選項: 隨附 ONNX 生產套件和用於 C/C++/Python 直接整合的獨立函式庫,以及適用於 Linux、macOS (Apple Silicon) 和 Windows 的預建二進位檔。
在大量真實世界嘈雜數據上訓練: 在 10,000 多小時的混合音訊上訓練;其中很大一部分包括中等 SIR 水平的重疊說話者,提高了真實通話的穩健性。
語言無關的增強: 由於它增強的是聲學訊號品質而不是依賴語言內容,因此適用於各種語言。

Hush 的使用案例

客服中心語音助理和 IVR: 清理嘈雜的電話音訊並抑制背景談話/電視,以提高助理理解能力,減少重複提示,並穩定端到端語音機器人性能。
即時轉錄管道: 透過增強語音清晰度並減少噪音和重疊說話者的干擾,提高即時或錄製對話的 ASR 準確性。
BFSI 客戶入職、銷售和催收電話: 在嘈雜環境和說話者重疊常見的受監管、高風險通話(例如 KYC、貸款/催收對話)中提高清晰度。
嘈雜環境中的語音助理: 透過減少環境噪音並專注於主要說話者,幫助助理在咖啡館、街道、辦公室和其他真實世界環境中運作。
合規性和 QA 通話審查: 透過改善原始訊號,增強錄製通話音訊,以實現更清晰的審核、品質監控和下游分析(摘要、意圖檢測)。

優點

開源 (Apache 2.0) 並專為企業/內部部署而設計。
即時、僅 CPU 操作,延遲極低且模型尺寸小。
明確專注於抑制競爭性背景說話者,這是生產型語音 AI 的常見痛點。

缺點

針對 16 kHz 串流/通話音訊進行優化;對於其他格式可能需要重新取樣和仔細的管道整合。
作為語音增強模型,在極端噪音/重疊條件下,根據輸入領域,可能會引入偽影或過度抑制。
最佳結果可能取決於適當的基於幀的串流整合(會話狀態、幀大小),而不是簡單的離線批次處理。

如何使用 Hush

1) 打開 Hush 模型頁面: 前往模型的官方 Hugging Face 儲存庫:https://huggingface.co/weya-ai/hush
2) 選擇您的整合路徑(快速演示 vs. 生產): 決定您是要 (a) 透過託管的 Hugging Face 介面試用 Hush 進行快速測試,還是 (b) 將其整合到您自己的語音 AI 堆疊中進行實時通話處理。
3) 在瀏覽器中試用 Hush(快速測試): 在 Hugging Face 模型頁面上,使用可用的演示/小部件(如果顯示)運行範例並比較嘈雜輸入與增強輸出。
4) 下載模型資產以供本地使用: 根據您的運行時需求,從 Hugging Face 儲存庫檔案下載檢查點和/或 ONNX 生產套件(onnx/ 目錄下的 ONNX tarball)。
5) 使用 ONNX 進行 CPU 實時部署: 對於不使用 PyTorch 的生產用途,請使用預建的 ONNX 套件,以便 Hush 可以在 CPU 上完全實時運行(該模型旨在以典型 CPU 上亞毫秒級的計算處理約 10 毫秒的幀)。
6) 將其整合到您的音訊管道的「前端」: 將 Hush 放置在 ASR/轉錄或您的語音代理之前,以便首先增強通話音訊;這可以提高清晰度並減少背景噪音和競爭語音到達下游組件。
7) 以實時流方式輸入音訊: 在實時音訊幀(例如,10 毫秒塊)上連續運行 Hush,以保持低延遲並維持通話和對話系統的實時行為。
8) 在您的目標環境中驗證: 使用您的真實通話條件(咖啡館、街道、辦公室噪音、重疊說話者)進行測試。請注意,Hush 是在適度 SIR(約 12–24 dB)的背景說話者下訓練的,因此極其響亮的競爭說話者可能無法完全抑制。
9) 了解不應將其用作輸出: 如果您看到對「分離頭」或背景說話者遮罩的引用,請將其視為訓練時的輔助正則化器(ERB 域軟遮罩),而不是用於生產的獨立源分離輸出。
10) 部署到您的目標作業系統: 使用 ONNX 方法將 CPU 運行時部署到您需要的地方(Linux、macOS 包括 Apple Silicon 或 Windows),以避免繁重的生產依賴。

Hush 常見問題

Hush 是一個開源的語音增強/噪音抑制模型,專為語音 AI 而建置,可消除背景噪音並抑制真實世界通話音訊中相互競爭的背景說話者。

与 Hush 类似的最新 AI 工具

EchoWave
EchoWave
EchoWave 是一個在線視頻和音頻編輯平台,使創作者能夠將音頻內容轉換為具有波形可視化、字幕和效果的吸引人視頻,以便在社交媒體上分享。
AIdeaflow Podcast
AIdeaflow Podcast
AIdeaflow Podcast 是一個由 AI 驅動的平台,將文本轉化為引人入勝的播客內容,支持 120 多種語音和多種語言的自然對話。
TranscribetoText.AI
TranscribetoText.AI
TranscribeToText.AI 是一個強大的在線轉錄服務,可以將音頻和視頻文件轉換為文本,支持超過 120 種語言,準確率高達 99.9%,提供無限制的轉錄訪問和靈活的輸出選項。
Rift Podcast
Rift Podcast
Rift Podcast 是一個由 AI 驅動的應用程序,將網絡內容轉換為個性化的音頻播客,提供從各個技術平台精選的獨家見解,每天僅需 15 分鐘即可完成聽取。