Welches Problem löst Hush für Voice AI-Systeme?

Hush verbessert die Qualität von Live-Anrufaudios, sodass nachgeschaltete Systeme (ASR, Sprachagenten, Callcenter-Bots, Transkriptionspipelines) den Hauptsprecher zuverlässiger verstehen können, insbesondere in lauten Umgebungen und bei überlappenden Stimmen.

Läuft Hush in Echtzeit und benötigt es eine GPU?

Ja – Hush ist so konzipiert, dass es vollständig auf der CPU in Echtzeit läuft (typischerweise unter ~1 ms Verarbeitung pro 10 ms Audioframe) und keine GPU benötigt.

Wie groß ist das Hush-Modell?

Das Modell ist ungefähr 8 MB groß.

Welche Trainingsdatenmerkmale werden für Hush erwähnt?

Hush wurde mit über 10.000 Stunden gemischtem, verrauschtem Audio trainiert, wobei konkurrierende menschliche Stimmen in etwa 60% des Datensatzes bei Signal-Interferenz-Verhältnissen (SIR) von 12–24 dB vorhanden waren.

Auf welcher Architektur basiert Hush?

Hush basiert auf der DeepFilterNet3-Architektur und beinhaltet eine Verbesserung mit einem Auxiliary Separation Head, um Hintergrundsprecher besser zu unterdrücken.

Wie kann Hush in der Produktion eingesetzt werden?

Hush kann über ONNX bereitgestellt werden (ein vorgefertigtes ONNX-Produktionspaket wird bereitgestellt), was eine reine CPU-Bereitstellung unter Linux, macOS (Apple Silicon) und Windows ermöglicht; das Repository verweist auch auf eine vorgefertigte Weya NC Standalone-Bibliothek für die Produktionsbereitstellung ohne PyTorch.

Ist Hush Open Source und welche Lizenz verwendet es?

Ja. Die Modellgewichte und der Quellcode sind öffentlich (z.B. auf Hugging Face und GitHub) unter der Apache 2.0 Lizenz verfügbar.

Wie hat Hush bei öffentlichen Benchmarks beim Start abgeschnitten?

Beim Start belegte Hush Platz 5 in der Audio-to-Audio-Bestenliste von Hugging Face und gehört damit zu den besten Open-Source-Modellen seiner Kategorie.

Hush

WebsiteFreemiumVoice & Audio Editing

Hush ist ein 8 MB großes Open-Source-Sprachverbesserungsmodell, das in Echtzeit auf der CPU läuft und Hintergrundgeräusche sowie konkurrierende Sprecher für Voice-AI-Produktionsanrufe in unter ~1 ms pro 10 ms Frame unterdrückt.

Website besuchen

Dieses Tool bewerben

https://www.weya.ai/hush?ref=producthunt&utm_source=aipure

Überblick
Video
Alternativen

Produktinformationen

Aktualisiert:Jul 8, 2026

Was ist Hush

Hush ist weya AI's internes Open-Source-Modell zur Rauschunterdrückung und Sprachverbesserung, das speziell für Voice-AI-Produktionssysteme wie Telefonagenten, Callcenter-Bots, Sprachassistenten und Echtzeit-Transkriptionspipelines entwickelt wurde. Im Gegensatz zu vielen Verbesserungsmodellen, die hauptsächlich für generische Rausch-Benchmarks optimiert sind, ist Hush für reale Anrufe konzipiert, bei denen überlappende menschliche Sprache ein häufiger Fehlerpunkt für ASR und nachgeschaltete Konversations-KI ist. Es ist leicht (~1,8 Mio. Parameter, ~8 MB), läuft vollständig auf der CPU in Echtzeit und wird mit praktischen Bereitstellungsartefakten (PyTorch-Checkpoint und ein ONNX-Produktionsbundle) unter der Apache 2.0-Lizenz vertrieben.

Hauptfunktionen von Hush

Hush ist ein Open-Source-Modell von weya AI zur Echtzeit-Sprachverbesserung/-Rauschunterdrückung, das speziell für die Produktion von Voice AI entwickelt wurde. Es läuft vollständig auf der CPU mit sehr geringer Latenz (etwa unter 1 ms Verarbeitung pro 10 ms Audio-Frame), ist leicht (~8 MB, ~1,8 Mio. Parameter) und wurde mit über 10.000 Stunden gemischtem, verrauschtem Audio trainiert, wobei ein starker Schwerpunkt auf der Unterdrückung konkurrierender Hintergrundsprecher (überlappende Sprache) zusätzlich zu typischem Umgebungsrauschen liegt. Es ist sprachunabhängig (arbeitet mit akustischen Merkmalen), kausal/streaming-freundlich und kann über ein ONNX-Produktionspaket oder vorgefertigte eigenständige Binärdateien für gängige Betriebssysteme bereitgestellt werden, was die Integration in Sprachpipelines erleichtert.

Unterdrückung von Hintergrundsprechern: Entwickelt, um den primären Anrufer zu isolieren und konkurrierende menschliche Stimmen (ein häufiger Fehler bei Sprachagenten und ASR) zu reduzieren, nicht nur stationäres Rauschen.

Echtzeit-CPU-Leistung: Verarbeitet Audio-Frames schnell genug für Live-Anrufe (berichtet unter ~1 ms pro 10 ms Audio), ohne eine GPU zu benötigen.

Leichter Fußabdruck: Die geringe Modellgröße (~8 MB; ~1,8 Mio. Parameter) macht es praktisch für On-Premise- und Edge-Bereitstellungen mit begrenzten Ressourcen.

Produktionsorientierte Bereitstellungsoptionen: Wird mit einem ONNX-Produktionspaket und einer eigenständigen Bibliothek für die direkte Integration in C/C++/Python geliefert, mit vorgefertigten Binärdateien für Linux, macOS (Apple Silicon) und Windows.

Trainiert mit umfangreichen realen, verrauschten Daten: Trainiert mit über 10.000 Stunden gemischtem Audio; ein großer Teil davon umfasst überlappende Sprecher bei moderaten SIR-Pegeln, was die Robustheit bei realen Anrufen verbessert.

Sprachunabhängige Verbesserung: Funktioniert über Sprachen hinweg, da es die akustische Signalqualität verbessert, anstatt sich auf linguistische Inhalte zu verlassen.

Anwendungsfälle von Hush

Callcenter-Sprachagenten & IVR: Bereinigt verrauschtes Telefon-Audio und unterdrückt Hintergrundgespräche/TV, um das Verständnis des Agenten zu verbessern, erneute Aufforderungen zu reduzieren und die End-to-End-Leistung des Sprachbots zu stabilisieren.

Echtzeit-Transkriptionspipelines: Verbessert die ASR-Genauigkeit bei Live- oder aufgezeichneten Gesprächen durch Verbesserung der Sprachklarheit und Reduzierung von Interferenzen durch Rauschen und überlappende Sprecher.

BFSI-Kunden-Onboarding, Verkaufs- und Inkassoanrufe: Erhöht die Verständlichkeit bei regulierten, risikoreichen Anrufen (z. B. KYC, Kredit-/Inkassogespräche), bei denen laute Umgebungen und Sprecherüberlappungen häufig sind.

Sprachassistenten in lauten Umgebungen: Hilft Assistenten, in Cafés, auf der Straße, in Büros und anderen realen Umgebungen zu funktionieren, indem Umgebungsgeräusche reduziert und der Hauptsprecher fokussiert wird.

Compliance- und QA-Anrufprüfung: Verbessert aufgezeichnete Anrufaudios für klarere Audits, Qualitätsüberwachung und nachgelagerte Analysen (Zusammenfassung, Absichtserkennung) durch Verbesserung des Quellsignals.

Vorteile

Open-Source (Apache 2.0) und für Unternehmens-/On-Premise-Bereitstellung konzipiert.

Echtzeit-, reine CPU-Operation mit sehr geringer Latenz und kleiner Modellgröße.

Expliziter Fokus auf die Unterdrückung konkurrierender Hintergrundsprecher, ein häufiger Schwachpunkt in der Produktions-Voice-AI.

Nachteile

Optimiert für 16 kHz Streaming-/Anrufaudio; erfordert möglicherweise Resampling und sorgfältige Pipeline-Integration für andere Formate.

Als Sprachverbesserungsmodell kann es je nach Eingabedomäne Artefakte einführen oder bei extremen Rausch-/Überlappungsbedingungen übermäßig unterdrücken.

Die besten Ergebnisse können von einer ordnungsgemäßen framebasierten Streaming-Integration (Sitzungsstatus, Frame-Größe) abhängen und nicht von einer einfachen Offline-Stapelverarbeitung.

Wie verwendet man Hush

1) Öffnen Sie die Hush-Modellseite: Gehen Sie zum offiziellen Hugging Face Repository für das Modell: https://huggingface.co/weya-ai/hush

2) Wählen Sie Ihren Integrationspfad (schnelle Demo vs. Produktion): Entscheiden Sie, ob Sie (a) Hush über die gehostete Hugging Face-Schnittstelle für einen schnellen Test ausprobieren oder (b) es in Ihren eigenen Voice-AI-Stack für die Echtzeit-Anrufverarbeitung integrieren möchten.

3) Hush im Browser ausprobieren (schneller Test): Verwenden Sie auf der Hugging Face-Modellseite die verfügbare Demo/Widget (falls angezeigt), um ein Beispiel auszuführen und verrauschte Eingaben mit verbesserten Ausgaben zu vergleichen.

4) Laden Sie die Modellressourcen zur lokalen Nutzung herunter: Laden Sie aus den Hugging Face Repo-Dateien den Checkpoint und/oder das ONNX-Produktionsbundle (den ONNX-Tarball unter dem Verzeichnis onnx/) herunter, je nach Ihren Laufzeitanforderungen.

5) ONNX für die CPU-Echtzeitbereitstellung verwenden: Für den Produktionseinsatz ohne PyTorch verwenden Sie das vorgefertigte ONNX-Bundle, damit Hush vollständig auf der CPU in Echtzeit ausgeführt werden kann (das Modell ist so konzipiert, dass es ~10 ms Frames mit Sub-ms-Berechnung auf typischen CPUs verarbeitet).

6) In Ihre Audio-Pipeline am 'Anfang' integrieren: Platzieren Sie Hush vor ASR/Transkription oder Ihrem Sprachagenten, damit das Anrufaudio zuerst verbessert wird; dies verbessert die Verständlichkeit und reduziert Hintergrundgeräusche und konkurrierende Sprache, die nachgeschaltete Komponenten erreichen.

7) Audio als Echtzeit-Stream zuführen: Führen Sie Hush kontinuierlich auf Live-Audio-Frames (z. B. 10 ms-Blöcke) aus, um die Latenz niedrig zu halten und das Echtzeitverhalten für Anrufe und Konversationssysteme aufrechtzuerhalten.

8) Auf Ihren Zielumgebungen validieren: Testen Sie unter Ihren realen Anrufbedingungen (Cafés, Straßen, Bürolärm, überlappende Sprecher). Beachten Sie, dass Hush mit Hintergrundsprechern bei moderatem SIR (ca. 12–24 dB) trainiert wurde, sodass extrem laute konkurrierende Sprecher möglicherweise nicht vollständig unterdrückt werden.

9) Verstehen, was nicht als Ausgabe verwendet werden sollte: Wenn Sie Verweise auf einen 'Separationskopf' oder eine Hintergrundsprecher-Maske sehen, behandeln Sie diese als einen Hilfsregulator zur Trainingszeit (ERB-Domänen-Softmaske), nicht als eine eigenständige Quell-Trennungs-Ausgabe für die Produktion.

10) Auf Ihrem Ziel-Betriebssystem bereitstellen: Stellen Sie die CPU-Laufzeit dort bereit, wo Sie sie benötigen (Linux, macOS einschließlich Apple Silicon oder Windows), indem Sie den ONNX-Ansatz verwenden, um schwere Produktionsabhängigkeiten zu vermeiden.

Hush FAQs

Hush ist ein Open-Source-Modell zur Sprachverbesserung/Rauschunterdrückung, das für Voice AI entwickelt wurde und Hintergrundgeräusche entfernt und konkurrierende Hintergrundsprecher aus realen Anrufaudios unterdrückt.

Hush Video

Beliebte Artikel

Atoms: Eine Multi-Agenten-KI-Plattform, die Ideen in startbereite Produkte verwandelt

May 22, 2026

Nano Banana SBTI: Was es ist, wie es funktioniert und wie man es im Jahr 2026 einsetzt

Apr 15, 2026

Atoms Review – Der KI-Produkt-Builder, der die digitale Erstellung im Jahr 2026 neu definiert

Apr 10, 2026

Kilo Claw: Wie man einen echten "Do-It-For-You" KI-Agenten bereitstellt und verwendet (2026 Update)

Apr 3, 2026

Neueste KI-Tools ähnlich wie Hush

EchoWave

FreemiumAI Video Editing Voice & Audio Editing AI Social Media Assistant

EchoWave ist eine Online-Videobearbeitungs- und Audio-Plattform, die es Erstellern ermöglicht, Audioinhalte in ansprechende Videos mit Wellenform-Visualisierungen, Untertiteln und Effekten für das Teilen in sozialen Medien umzuwandeln.

AIdeaflow Podcast

FreeAI Podcast Assistant Text to Speech Voice & Audio Editing

AIdeaflow Podcast ist eine KI-gestützte Plattform, die Text in ansprechende Podcast-Inhalte mit natürlichen Gesprächen in über 120 Stimmen und mehreren Sprachen umwandelt.

TranscribetoText.AI

FreemiumTranscription AI Speech Recognition Voice & Audio Editing

TranscribeToText.AI ist ein leistungsstarker Online-Transkriptionsdienst, der Audio- und Videodateien in über 120 Sprachen mit 99,9 % Genauigkeit in Text umwandelt und unbegrenzten Transkriptionszugang sowie flexible Ausgabeoptionen bietet.

Rift Podcast

Free TrialAI Podcast Assistant Text to Speech Voice & Audio Editing

Rift Podcast ist eine KI-gesteuerte Anwendung, die Webinhalte in personalisierte Audio-Podcasts umwandelt und exklusive Einblicke bietet, die aus verschiedenen Technikplattformen kuratiert und täglich in nur 15 Minuten geliefert werden.

Beliebte KI-Tools wie Hush

W-Okada Voice Changer

FreemiumAI Voice Changer Voice & Audio Editing AI Voice Chat Generator

W-Okada Voice Changer ist eine Open-Source-Software zur Echtzeit-Sprachumwandlung, die KI verwendet, um Stimmen mit hoher Qualität und niedriger Latenz zu transformieren.

FnKey

FreeText to Speech Voice & Audio Editing

FnKey ist eine schlanke macOS-Menüleistenanwendung, die eine schnelle Sprache-zu-Text-Transkription ermöglicht, indem die Fn-Taste zum Sprechen gedrückt gehalten wird und der transkribierte Text beim Loslassen automatisch eingefügt wird.

Background noise removal

FreeAI Noise Cancellation Voice & Audio Editing

Eine leistungsstarke Chrome-Erweiterung, die fortschrittliche KI-Technologie verwendet, um unerwünschte Hintergrundgeräusche aus Audio- und Videodateien zu entfernen und eine Echtzeit-Geräuschunterdrückung für kristallklare Klangqualität zu bieten.

Audio player for ChatGPT

FreeText to Speech Voice & Audio Editing

Eine Chrome-Erweiterung, die die Vorlesefunktion von ChatGPT verbessert, indem sie einen benutzerfreundlichen Audioplayer mit grundlegenden Steuerelementen wie Wiedergabe/Pause, Suchleiste und Daueranzeige hinzufügt.

Rangliste

Einreichen & BewerbenNew

Hush

Produktinformationen

Was ist Hush

Hauptfunktionen von Hush

Anwendungsfälle von Hush

Vorteile

Nachteile

Wie verwendet man Hush

Hush FAQs

1. Was ist Hush von weya AI?

2. Welches Problem löst Hush für Voice AI-Systeme?

3. Läuft Hush in Echtzeit und benötigt es eine GPU?

4. Wie groß ist das Hush-Modell?

5. Welche Trainingsdatenmerkmale werden für Hush erwähnt?

6. Auf welcher Architektur basiert Hush?

7. Wie kann Hush in der Produktion eingesetzt werden?

8. Ist Hush Open Source und welche Lizenz verwendet es?

9. Wie hat Hush bei öffentlichen Benchmarks beim Start abgeschnitten?

Hush Video

Beliebte Artikel

Neueste KI-Tools ähnlich wie Hush

Beliebte KI-Tools wie Hush