Hush 為語音 AI 系統解決了什麼問題？

Hush 改善了即時通話音訊的品質，因此下游系統（ASR、語音代理、客服中心機器人、轉錄管道）可以更可靠地理解主要說話者，尤其是在嘈雜的環境和語音重疊的情況下。

Hush 是否即時運行，它需要 GPU 嗎？

是的，Hush 旨在完全在 CPU 上即時運行（通常每 10 毫秒音訊幀處理時間少於 1 毫秒），並且不需要 GPU。

Hush 提到了哪些訓練資料特性？

Hush 經過 10,000 多小時的混合嘈雜音訊訓練，其中約 60% 的資料集中存在相互競爭的人聲，訊號干擾比 (SIR) 為 12–24 dB。

Hush 基於什麼架構？

Hush 建基於 DeepFilterNet3 架構，並包含一個帶有輔助分離頭的增強功能，以更好地抑制背景說話者。

Hush 如何在生產環境中部署？

Hush 可以透過 ONNX 部署（提供預建的 ONNX 生產套件），從而實現跨 Linux、macOS (Apple Silicon) 和 Windows 的僅 CPU 部署；該儲存庫還引用了一個預建的 Weya NC 獨立函式庫，用於無需 PyTorch 的生產部署。

Hush 是開源的嗎？它使用什麼許可證？

是的。模型權重和原始碼根據 Apache 2.0 許可證公開提供（例如，在 Hugging Face 和 GitHub 上）。

Hush 在發佈時的公開基準測試中表現如何？

發佈時，Hush 在 Hugging Face 的 Audio-to-Audio 排行榜上排名第 5，使其成為同類別中頂級的開源模型之一。

Hush

WebsiteFreemiumVoice & Audio Editing

Hush 是一個 8 MB 的開源、CPU 實時語音增強模型，可在每 10 毫秒幀不到 1 毫秒的時間內抑制背景噪音和競爭說話者，用於生產語音 AI 通話。

訪問網站

宣傳此工具

https://www.weya.ai/hush?ref=producthunt&utm_source=aipure

概覽
影片
替代方案

產品資訊

更新時間：2026年07月08日

什麼是 Hush

Hush 是 weya AI 內部開源的噪音抑制和語音增強模型，專為生產型語音 AI 系統而建置，例如電話代理、呼叫中心機器人、語音助理和實時轉錄管道。與許多主要針對通用噪音基準優化的增強模型不同，Hush 專為真實世界的通話而設計，在這些通話中，重疊的人聲是 ASR 和下游對話式 AI 經常遇到的失敗點。它輕巧（約 1.8M 參數，約 8 MB），完全在 CPU 上實時運行，並以 Apache 2.0 許可證分發，包含實用的部署工件（PyTorch 檢查點和 ONNX 生產套件）。

Hush 的主要功能

Hush 是 weya AI 開發的一個開源、即時語音增強/噪音抑制模型，專為生產型語音 AI 而建置。它完全在 CPU 上運行，延遲極低（每 10 毫秒音訊幀處理時間約不到 1 毫秒），輕巧（約 8 MB，約 1.8M 參數），並經過 10,000 多小時的混合噪音音訊訓練，特別強調抑制競爭性背景說話者（重疊語音）以及典型的環境噪音。它與語言無關（基於聲學特徵操作）、支援因果/串流，並且可以透過 ONNX 生產套件或針對常見作業系統的預建獨立二進位檔部署，使其易於整合到語音管道中。

背景說話者抑制: 旨在隔離主要通話者並減少競爭性人聲（語音助理和 ASR 的常見故障模式），而不僅僅是靜態噪音。

即時 CPU 性能: 處理音訊幀的速度足以應付即時通話（據報導每 10 毫秒音訊處理時間不到 1 毫秒），無需 GPU。

輕量級佔用空間: 模型尺寸小（約 8 MB；約 1.8M 參數），使其適用於資源有限的內部部署和邊緣部署。

面向生產的部署選項: 隨附 ONNX 生產套件和用於 C/C++/Python 直接整合的獨立函式庫，以及適用於 Linux、macOS (Apple Silicon) 和 Windows 的預建二進位檔。

在大量真實世界嘈雜數據上訓練: 在 10,000 多小時的混合音訊上訓練；其中很大一部分包括中等 SIR 水平的重疊說話者，提高了真實通話的穩健性。

語言無關的增強: 由於它增強的是聲學訊號品質而不是依賴語言內容，因此適用於各種語言。

Hush 的使用案例

客服中心語音助理和 IVR: 清理嘈雜的電話音訊並抑制背景談話/電視，以提高助理理解能力，減少重複提示，並穩定端到端語音機器人性能。

即時轉錄管道: 透過增強語音清晰度並減少噪音和重疊說話者的干擾，提高即時或錄製對話的 ASR 準確性。

BFSI 客戶入職、銷售和催收電話: 在嘈雜環境和說話者重疊常見的受監管、高風險通話（例如 KYC、貸款/催收對話）中提高清晰度。

嘈雜環境中的語音助理: 透過減少環境噪音並專注於主要說話者，幫助助理在咖啡館、街道、辦公室和其他真實世界環境中運作。

合規性和 QA 通話審查: 透過改善原始訊號，增強錄製通話音訊，以實現更清晰的審核、品質監控和下游分析（摘要、意圖檢測）。

優點

開源 (Apache 2.0) 並專為企業/內部部署而設計。

即時、僅 CPU 操作，延遲極低且模型尺寸小。

明確專注於抑制競爭性背景說話者，這是生產型語音 AI 的常見痛點。

缺點

針對 16 kHz 串流/通話音訊進行優化；對於其他格式可能需要重新取樣和仔細的管道整合。

作為語音增強模型，在極端噪音/重疊條件下，根據輸入領域，可能會引入偽影或過度抑制。

最佳結果可能取決於適當的基於幀的串流整合（會話狀態、幀大小），而不是簡單的離線批次處理。

如何使用 Hush

1) 打開 Hush 模型頁面: 前往模型的官方 Hugging Face 儲存庫：https://huggingface.co/weya-ai/hush

2) 選擇您的整合路徑（快速演示 vs. 生產）: 決定您是要 (a) 透過託管的 Hugging Face 介面試用 Hush 進行快速測試，還是 (b) 將其整合到您自己的語音 AI 堆疊中進行實時通話處理。

3) 在瀏覽器中試用 Hush（快速測試）: 在 Hugging Face 模型頁面上，使用可用的演示/小部件（如果顯示）運行範例並比較嘈雜輸入與增強輸出。

4) 下載模型資產以供本地使用: 根據您的運行時需求，從 Hugging Face 儲存庫檔案下載檢查點和/或 ONNX 生產套件（onnx/ 目錄下的 ONNX tarball）。

5) 使用 ONNX 進行 CPU 實時部署: 對於不使用 PyTorch 的生產用途，請使用預建的 ONNX 套件，以便 Hush 可以在 CPU 上完全實時運行（該模型旨在以典型 CPU 上亞毫秒級的計算處理約 10 毫秒的幀）。

6) 將其整合到您的音訊管道的「前端」: 將 Hush 放置在 ASR/轉錄或您的語音代理之前，以便首先增強通話音訊；這可以提高清晰度並減少背景噪音和競爭語音到達下游組件。

7) 以實時流方式輸入音訊: 在實時音訊幀（例如，10 毫秒塊）上連續運行 Hush，以保持低延遲並維持通話和對話系統的實時行為。

8) 在您的目標環境中驗證: 使用您的真實通話條件（咖啡館、街道、辦公室噪音、重疊說話者）進行測試。請注意，Hush 是在適度 SIR（約 12–24 dB）的背景說話者下訓練的，因此極其響亮的競爭說話者可能無法完全抑制。

9) 了解不應將其用作輸出: 如果您看到對「分離頭」或背景說話者遮罩的引用，請將其視為訓練時的輔助正則化器（ERB 域軟遮罩），而不是用於生產的獨立源分離輸出。

10) 部署到您的目標作業系統: 使用 ONNX 方法將 CPU 運行時部署到您需要的地方（Linux、macOS 包括 Apple Silicon 或 Windows），以避免繁重的生產依賴。

Hush 常見問題

Hush 是一個開源的語音增強/噪音抑制模型，專為語音 AI 而建置，可消除背景噪音並抑制真實世界通話音訊中相互競爭的背景說話者。

Hush 影片

与 Hush 类似的最新 AI 工具

EchoWave

FreemiumAI Video Editing Voice & Audio Editing AI Social Media Assistant

EchoWave 是一個在線視頻和音頻編輯平台，使創作者能夠將音頻內容轉換為具有波形可視化、字幕和效果的吸引人視頻，以便在社交媒體上分享。

AIdeaflow Podcast

FreeAI Podcast Assistant Text to Speech Voice & Audio Editing

AIdeaflow Podcast 是一個由 AI 驅動的平台，將文本轉化為引人入勝的播客內容，支持 120 多種語音和多種語言的自然對話。

TranscribetoText.AI

FreemiumTranscription AI Speech Recognition Voice & Audio Editing

TranscribeToText.AI 是一個強大的在線轉錄服務，可以將音頻和視頻文件轉換為文本，支持超過 120 種語言，準確率高達 99.9%，提供無限制的轉錄訪問和靈活的輸出選項。

Rift Podcast

Free TrialAI Podcast Assistant Text to Speech Voice & Audio Editing

Rift Podcast 是一個由 AI 驅動的應用程序，將網絡內容轉換為個性化的音頻播客，提供從各個技術平台精選的獨家見解，每天僅需 15 分鐘即可完成聽取。

类似 Hush 的热门 AI 工具

W-Okada Voice Changer

FreemiumAI Voice Changer Voice & Audio Editing AI Voice Chat Generator

W-Okada Voice Changer 是一款使用AI進行高質量和低延遲即時語音轉換的開源軟件。

FnKey

FreeText to Speech Voice & Audio Editing

FnKey 是一款輕量級 macOS 選單列應用程式，可透過按住 Fn 鍵說話來實現快速的語音轉文字轉錄，並在釋放時自動貼上轉錄的文字。

Background noise removal

FreeAI Noise Cancellation Voice & Audio Editing

一款強大的 Chrome 擴展，使用先進的 AI 技術從音頻和視頻文件中消除不必要的背景噪音，提供實時噪音消除功能，實現水晶般清晰的音質。

Audio player for ChatGPT

FreeText to Speech Voice & Audio Editing

一款 Chrome 擴充功能，通過添加一個用戶友好的音頻播放器來增強 ChatGPT 的朗讀功能，該播放器具有播放/暫停、進度條和時長顯示等基本控制項。

排名

提交與推廣New

Hush

產品資訊

什麼是 Hush

Hush 的主要功能

Hush 的使用案例

優點

缺點

如何使用 Hush

Hush 常見問題

1. Weya AI 的 Hush 是什麼？

2. Hush 為語音 AI 系統解決了什麼問題？

3. Hush 是否即時運行，它需要 GPU 嗎？

4. Hush 模型有多大？

5. Hush 提到了哪些訓練資料特性？

6. Hush 基於什麼架構？

7. Hush 如何在生產環境中部署？

8. Hush 是開源的嗎？它使用什麼許可證？

9. Hush 在發佈時的公開基準測試中表現如何？

Hush 影片

熱門文章

与 Hush 类似的最新 AI 工具

类似 Hush 的热门 AI 工具