
Hush
Hushは、10ミリ秒フレームあたり1ミリ秒未満でバックグラウンドノイズと競合するスピーカーを抑制する、8MBのオープンソースCPUリアルタイム音声強調モデルで、本番環境の音声AI通話向けです。
https://www.weya.ai/hush?ref=producthunt&utm_source=aipure

製品情報
更新日:2026年06月24日
Hushとは
Hushは、電話エージェント、コールセンターボット、音声アシスタント、リアルタイム文字起こしパイプラインなどの本番環境の音声AIシステム向けに特別に構築された、weya AI社内のオープンソースノイズ抑制および音声強調モデルです。一般的なノイズベンチマーク向けに最適化された多くの強調モデルとは異なり、Hushは、重複する人間の音声がASRおよび下流の会話型AIにとって頻繁な失敗点となる実際の通話向けに設計されています。軽量(約1.8Mパラメータ、約8 MB)で、CPUで完全にリアルタイムで動作し、Apache 2.0ライセンスの下で実用的な展開アーティファクト(PyTorchチェックポイントとONNX本番バンドル)とともに配布されています。
Hushの主な機能
Hushは、weya AIが提供するオープンソースのリアルタイム音声強調/ノイズ抑制モデルで、特にプロダクションVoice AI向けに構築されています。CPU上で完全に動作し、非常に低いレイテンシ(10ミリ秒のオーディオフレームあたり約1ミリ秒未満の処理)で、軽量(約8MB、約1.8Mパラメータ)です。一般的な環境ノイズに加えて、競合する背景話者(重複する音声)の抑制に重点を置いて、10,000時間以上の混合ノイズオーディオでトレーニングされています。言語に依存せず(音響特徴で動作)、因果的/ストリーミングフレンドリーで、ONNXプロダクションバンドルまたは一般的なOS用のビルド済みスタンドアロンバイナリを介してデプロイできるため、音声パイプラインへの統合が容易です。
背景話者抑制: 静止ノイズだけでなく、主要な発信者を分離し、競合する人間の声(音声エージェントやASRの一般的な失敗モード)を低減するように設計されています。
リアルタイムCPUパフォーマンス: GPUを必要とせずに、ライブ通話に十分な速さでオーディオフレームを処理します(10ミリ秒のオーディオあたり約1ミリ秒未満と報告されています)。
軽量フットプリント: 小さなモデルサイズ(約8MB、約1.8Mパラメータ)により、リソースが限られたオンプレミスおよびエッジデプロイメントに実用的です。
プロダクション指向のデプロイオプション: ONNXプロダクションバンドルと、C/C++/Pythonに直接統合するためのスタンドアロンライブラリが付属しており、Linux、macOS(Apple Silicon)、およびWindows用のビルド済みバイナリが含まれています。
大規模な実世界のノイズデータでトレーニング済み: 10,000時間以上の混合オーディオでトレーニングされており、その大部分には中程度のSIRレベルでの重複する話者が含まれており、実際の通話での堅牢性を向上させています。
言語に依存しない強調: 言語コンテンツに依存するのではなく、音響信号の品質を向上させるため、複数の言語で機能します。
Hushのユースケース
コールセンターの音声エージェントとIVR: ノイズの多い電話音声をクリーンアップし、背景の会話/テレビを抑制して、エージェントの理解を向上させ、再プロンプトを減らし、エンドツーエンドの音声ボットのパフォーマンスを安定させます。
リアルタイム転写パイプライン: 音声の明瞭度を高め、ノイズや重複する話者からの干渉を減らすことで、ライブまたは録音された会話のASR精度を向上させます。
BFSI顧客のオンボーディング、販売、および回収コール: ノイズの多い環境や話者の重複が一般的な、規制された重要な通話(例:KYC、ローン/回収の会話)での明瞭度を高めます。
ノイズの多い環境での音声アシスタント: カフェ、路上、オフィス、その他の現実世界の環境で、環境ノイズを低減し、主要な話者に焦点を当てることで、アシスタントが機能するのを助けます。
コンプライアンスおよびQAコールレビュー: ソース信号を改善することで、より明確な監査、品質監視、およびダウンストリーム分析(要約、意図検出)のために、録音された通話音声を強化します。
メリット
オープンソース(Apache 2.0)で、エンタープライズ/オンプレミスデプロイメント向けに設計されています。
非常に低いレイテンシと小さなモデルサイズで、リアルタイムのCPUのみの操作が可能です。
競合する背景話者の抑制に明確に焦点を当てており、これはプロダクションVoice AIの一般的な問題点です。
デメリット
16 kHzストリーミング/通話オーディオ用に最適化されています。他の形式では、リサンプリングと慎重なパイプライン統合が必要になる場合があります。
音声強調モデルとして、入力ドメインによっては、極端なノイズ/重複条件下でアーティファクトを導入したり、過剰に抑制したりする可能性があります。
最良の結果は、単純なオフラインバッチ処理ではなく、適切なフレームベースのストリーミング統合(セッション状態、フレームサイズ)に依存する場合があります。
Hushの使い方
1) Hushモデルページを開く: モデルの公式Hugging Faceリポジトリにアクセスします: https://huggingface.co/weya-ai/hush
2) 統合パスを選択する(クイックデモ vs. 本番環境): HushをHugging Faceのホストされたインターフェース経由で試して簡単なテストを行うか、またはリアルタイム通話処理のために独自の音声AIスタックに統合するかを決定します。
3) ブラウザでHushを試す(クイックテスト): Hugging Faceモデルページで、利用可能なデモ/ウィジェット(表示されている場合)を使用して例を実行し、ノイズの多い入力と強調された出力を比較します。
4) ローカル使用のためにモデルアセットをダウンロードする: Hugging Faceリポジトリファイルから、ランタイムのニーズに応じて、チェックポイントおよび/またはONNX本番バンドル(onnx/ディレクトリ内のONNX tarball)をダウンロードします。
5) CPUリアルタイム展開にONNXを使用する: PyTorchなしで本番環境で使用するには、事前に構築されたONNXバンドルを使用します。これにより、HushはCPUで完全にリアルタイムで実行できます(このモデルは、一般的なCPUでサブミリ秒の計算で約10ミリ秒のフレームを処理するように設計されています)。
6) オーディオパイプラインの「フロント」に統合する: ASR/文字起こしまたは音声エージェントの前にHushを配置して、通話音声が最初に強調されるようにします。これにより、明瞭度が向上し、バックグラウンドノイズや競合する音声が下流のコンポーネントに到達するのを減らします。
7) オーディオをリアルタイムストリームとして供給する: Hushをライブオーディオフレーム(例: 10ミリ秒チャンク)で継続的に実行し、レイテンシを低く保ち、通話および会話システムでリアルタイムの動作を維持します。
8) ターゲット環境で検証する: 実際の通話条件(カフェ、路上、オフィスノイズ、重複する話者)でテストします。Hushは、中程度のSIR(約12~24 dB)のバックグラウンドスピーカーでトレーニングされているため、非常に大きな競合スピーカーは完全に抑制されない場合があります。
9) 出力として使用しないものを理解する: 「分離ヘッド」またはバックグラウンドスピーカーマスクへの参照がある場合、それはトレーニング時の補助的な正則化器(ERBドメインのソフトマスク)として扱い、本番環境向けのスタンドアロンの音源分離出力としては扱いません。
10) ターゲットOSに展開する: 重い本番環境の依存関係を避けるために、ONNXアプローチを使用して、必要な場所(Linux、Apple Siliconを含むmacOS、またはWindows)にCPUランタイムを展開します。
Hushのよくある質問
Hushは、Voice AI向けに構築されたオープンソースの音声強調/ノイズ抑制モデルで、現実世界の通話音声からバックグラウンドノイズを除去し、競合するバックグラウンドスピーカーを抑制します。











