Hush

Hush

WebsiteFreemiumVoice & Audio Editing
Hush ist ein 8 MB großes Open-Source-Sprachverbesserungsmodell, das in Echtzeit auf der CPU läuft und Hintergrundgeräusche sowie konkurrierende Sprecher für Voice-AI-Produktionsanrufe in unter ~1 ms pro 10 ms Frame unterdrückt.
https://www.weya.ai/hush?ref=producthunt&utm_source=aipure
Hush

Produktinformationen

Aktualisiert:Jun 24, 2026

Was ist Hush

Hush ist weya AI's internes Open-Source-Modell zur Rauschunterdrückung und Sprachverbesserung, das speziell für Voice-AI-Produktionssysteme wie Telefonagenten, Callcenter-Bots, Sprachassistenten und Echtzeit-Transkriptionspipelines entwickelt wurde. Im Gegensatz zu vielen Verbesserungsmodellen, die hauptsächlich für generische Rausch-Benchmarks optimiert sind, ist Hush für reale Anrufe konzipiert, bei denen überlappende menschliche Sprache ein häufiger Fehlerpunkt für ASR und nachgeschaltete Konversations-KI ist. Es ist leicht (~1,8 Mio. Parameter, ~8 MB), läuft vollständig auf der CPU in Echtzeit und wird mit praktischen Bereitstellungsartefakten (PyTorch-Checkpoint und ein ONNX-Produktionsbundle) unter der Apache 2.0-Lizenz vertrieben.

Hauptfunktionen von Hush

Hush ist ein Open-Source-Modell von weya AI zur Echtzeit-Sprachverbesserung/-Rauschunterdrückung, das speziell für die Produktion von Voice AI entwickelt wurde. Es läuft vollständig auf der CPU mit sehr geringer Latenz (etwa unter 1 ms Verarbeitung pro 10 ms Audio-Frame), ist leicht (~8 MB, ~1,8 Mio. Parameter) und wurde mit über 10.000 Stunden gemischtem, verrauschtem Audio trainiert, wobei ein starker Schwerpunkt auf der Unterdrückung konkurrierender Hintergrundsprecher (überlappende Sprache) zusätzlich zu typischem Umgebungsrauschen liegt. Es ist sprachunabhängig (arbeitet mit akustischen Merkmalen), kausal/streaming-freundlich und kann über ein ONNX-Produktionspaket oder vorgefertigte eigenständige Binärdateien für gängige Betriebssysteme bereitgestellt werden, was die Integration in Sprachpipelines erleichtert.
Unterdrückung von Hintergrundsprechern: Entwickelt, um den primären Anrufer zu isolieren und konkurrierende menschliche Stimmen (ein häufiger Fehler bei Sprachagenten und ASR) zu reduzieren, nicht nur stationäres Rauschen.
Echtzeit-CPU-Leistung: Verarbeitet Audio-Frames schnell genug für Live-Anrufe (berichtet unter ~1 ms pro 10 ms Audio), ohne eine GPU zu benötigen.
Leichter Fußabdruck: Die geringe Modellgröße (~8 MB; ~1,8 Mio. Parameter) macht es praktisch für On-Premise- und Edge-Bereitstellungen mit begrenzten Ressourcen.
Produktionsorientierte Bereitstellungsoptionen: Wird mit einem ONNX-Produktionspaket und einer eigenständigen Bibliothek für die direkte Integration in C/C++/Python geliefert, mit vorgefertigten Binärdateien für Linux, macOS (Apple Silicon) und Windows.
Trainiert mit umfangreichen realen, verrauschten Daten: Trainiert mit über 10.000 Stunden gemischtem Audio; ein großer Teil davon umfasst überlappende Sprecher bei moderaten SIR-Pegeln, was die Robustheit bei realen Anrufen verbessert.
Sprachunabhängige Verbesserung: Funktioniert über Sprachen hinweg, da es die akustische Signalqualität verbessert, anstatt sich auf linguistische Inhalte zu verlassen.

Anwendungsfälle von Hush

Callcenter-Sprachagenten & IVR: Bereinigt verrauschtes Telefon-Audio und unterdrückt Hintergrundgespräche/TV, um das Verständnis des Agenten zu verbessern, erneute Aufforderungen zu reduzieren und die End-to-End-Leistung des Sprachbots zu stabilisieren.
Echtzeit-Transkriptionspipelines: Verbessert die ASR-Genauigkeit bei Live- oder aufgezeichneten Gesprächen durch Verbesserung der Sprachklarheit und Reduzierung von Interferenzen durch Rauschen und überlappende Sprecher.
BFSI-Kunden-Onboarding, Verkaufs- und Inkassoanrufe: Erhöht die Verständlichkeit bei regulierten, risikoreichen Anrufen (z. B. KYC, Kredit-/Inkassogespräche), bei denen laute Umgebungen und Sprecherüberlappungen häufig sind.
Sprachassistenten in lauten Umgebungen: Hilft Assistenten, in Cafés, auf der Straße, in Büros und anderen realen Umgebungen zu funktionieren, indem Umgebungsgeräusche reduziert und der Hauptsprecher fokussiert wird.
Compliance- und QA-Anrufprüfung: Verbessert aufgezeichnete Anrufaudios für klarere Audits, Qualitätsüberwachung und nachgelagerte Analysen (Zusammenfassung, Absichtserkennung) durch Verbesserung des Quellsignals.

Vorteile

Open-Source (Apache 2.0) und für Unternehmens-/On-Premise-Bereitstellung konzipiert.
Echtzeit-, reine CPU-Operation mit sehr geringer Latenz und kleiner Modellgröße.
Expliziter Fokus auf die Unterdrückung konkurrierender Hintergrundsprecher, ein häufiger Schwachpunkt in der Produktions-Voice-AI.

Nachteile

Optimiert für 16 kHz Streaming-/Anrufaudio; erfordert möglicherweise Resampling und sorgfältige Pipeline-Integration für andere Formate.
Als Sprachverbesserungsmodell kann es je nach Eingabedomäne Artefakte einführen oder bei extremen Rausch-/Überlappungsbedingungen übermäßig unterdrücken.
Die besten Ergebnisse können von einer ordnungsgemäßen framebasierten Streaming-Integration (Sitzungsstatus, Frame-Größe) abhängen und nicht von einer einfachen Offline-Stapelverarbeitung.

Wie verwendet man Hush

1) Öffnen Sie die Hush-Modellseite: Gehen Sie zum offiziellen Hugging Face Repository für das Modell: https://huggingface.co/weya-ai/hush
2) Wählen Sie Ihren Integrationspfad (schnelle Demo vs. Produktion): Entscheiden Sie, ob Sie (a) Hush über die gehostete Hugging Face-Schnittstelle für einen schnellen Test ausprobieren oder (b) es in Ihren eigenen Voice-AI-Stack für die Echtzeit-Anrufverarbeitung integrieren möchten.
3) Hush im Browser ausprobieren (schneller Test): Verwenden Sie auf der Hugging Face-Modellseite die verfügbare Demo/Widget (falls angezeigt), um ein Beispiel auszuführen und verrauschte Eingaben mit verbesserten Ausgaben zu vergleichen.
4) Laden Sie die Modellressourcen zur lokalen Nutzung herunter: Laden Sie aus den Hugging Face Repo-Dateien den Checkpoint und/oder das ONNX-Produktionsbundle (den ONNX-Tarball unter dem Verzeichnis onnx/) herunter, je nach Ihren Laufzeitanforderungen.
5) ONNX für die CPU-Echtzeitbereitstellung verwenden: Für den Produktionseinsatz ohne PyTorch verwenden Sie das vorgefertigte ONNX-Bundle, damit Hush vollständig auf der CPU in Echtzeit ausgeführt werden kann (das Modell ist so konzipiert, dass es ~10 ms Frames mit Sub-ms-Berechnung auf typischen CPUs verarbeitet).
6) In Ihre Audio-Pipeline am 'Anfang' integrieren: Platzieren Sie Hush vor ASR/Transkription oder Ihrem Sprachagenten, damit das Anrufaudio zuerst verbessert wird; dies verbessert die Verständlichkeit und reduziert Hintergrundgeräusche und konkurrierende Sprache, die nachgeschaltete Komponenten erreichen.
7) Audio als Echtzeit-Stream zuführen: Führen Sie Hush kontinuierlich auf Live-Audio-Frames (z. B. 10 ms-Blöcke) aus, um die Latenz niedrig zu halten und das Echtzeitverhalten für Anrufe und Konversationssysteme aufrechtzuerhalten.
8) Auf Ihren Zielumgebungen validieren: Testen Sie unter Ihren realen Anrufbedingungen (Cafés, Straßen, Bürolärm, überlappende Sprecher). Beachten Sie, dass Hush mit Hintergrundsprechern bei moderatem SIR (ca. 12–24 dB) trainiert wurde, sodass extrem laute konkurrierende Sprecher möglicherweise nicht vollständig unterdrückt werden.
9) Verstehen, was nicht als Ausgabe verwendet werden sollte: Wenn Sie Verweise auf einen 'Separationskopf' oder eine Hintergrundsprecher-Maske sehen, behandeln Sie diese als einen Hilfsregulator zur Trainingszeit (ERB-Domänen-Softmaske), nicht als eine eigenständige Quell-Trennungs-Ausgabe für die Produktion.
10) Auf Ihrem Ziel-Betriebssystem bereitstellen: Stellen Sie die CPU-Laufzeit dort bereit, wo Sie sie benötigen (Linux, macOS einschließlich Apple Silicon oder Windows), indem Sie den ONNX-Ansatz verwenden, um schwere Produktionsabhängigkeiten zu vermeiden.

Hush FAQs

Hush ist ein Open-Source-Modell zur Sprachverbesserung/Rauschunterdrückung, das für Voice AI entwickelt wurde und Hintergrundgeräusche entfernt und konkurrierende Hintergrundsprecher aus realen Anrufaudios unterdrückt.

Neueste KI-Tools ähnlich wie Hush

EchoWave
EchoWave
EchoWave ist eine Online-Videobearbeitungs- und Audio-Plattform, die es Erstellern ermöglicht, Audioinhalte in ansprechende Videos mit Wellenform-Visualisierungen, Untertiteln und Effekten für das Teilen in sozialen Medien umzuwandeln.
AIdeaflow Podcast
AIdeaflow Podcast
AIdeaflow Podcast ist eine KI-gestützte Plattform, die Text in ansprechende Podcast-Inhalte mit natürlichen Gesprächen in über 120 Stimmen und mehreren Sprachen umwandelt.
TranscribetoText.AI
TranscribetoText.AI
TranscribeToText.AI ist ein leistungsstarker Online-Transkriptionsdienst, der Audio- und Videodateien in über 120 Sprachen mit 99,9 % Genauigkeit in Text umwandelt und unbegrenzten Transkriptionszugang sowie flexible Ausgabeoptionen bietet.
Rift Podcast
Rift Podcast
Rift Podcast ist eine KI-gesteuerte Anwendung, die Webinhalte in personalisierte Audio-Podcasts umwandelt und exklusive Einblicke bietet, die aus verschiedenen Technikplattformen kuratiert und täglich in nur 15 Minuten geliefert werden.