
Hush
Hush est un modèle d'amélioration de la parole open-source de 8 Mo, fonctionnant en temps réel sur CPU, qui supprime le bruit de fond et les locuteurs concurrents pour les appels d'IA vocale de production en moins de ~1 ms par trame de 10 ms.
https://www.weya.ai/hush?ref=producthunt&utm_source=aipure

Informations sur le produit
Mis à jour:Jun 24, 2026
Qu'est-ce que Hush
Hush est le modèle open-source de suppression de bruit et d'amélioration de la parole de weya AI, conçu spécifiquement pour les systèmes d'IA vocale de production tels que les agents téléphoniques, les robots de centre d'appels, les assistants vocaux et les pipelines de transcription en temps réel. Contrairement à de nombreux modèles d'amélioration optimisés principalement pour des benchmarks de bruit génériques, Hush est conçu pour les appels réels où le chevauchement de la parole humaine est un point de défaillance fréquent pour l'ASR et l'IA conversationnelle en aval. Il est léger (~1,8 million de paramètres, ~8 Mo), fonctionne entièrement sur CPU en temps réel et est distribué avec des artefacts de déploiement pratiques (point de contrôle PyTorch et un bundle de production ONNX) sous la licence Apache 2.0.
Caractéristiques principales de Hush
Hush est un modèle open-source d'amélioration de la parole/suppression du bruit en temps réel de weya AI, conçu spécifiquement pour l'IA vocale de production. Il fonctionne entièrement sur CPU avec une très faible latence (environ moins de 1 ms de traitement par trame audio de 10 ms), est léger (~8 Mo, ~1,8 million de paramètres) et est entraîné sur plus de 10 000 heures d'audio bruyant mixte, avec un fort accent sur la suppression des locuteurs de fond concurrents (parole superposée) en plus du bruit ambiant typique. Il est agnostique à la langue (fonctionne sur des caractéristiques acoustiques), compatible avec le streaming/causal, et peut être déployé via un bundle de production ONNX ou des binaires autonomes pré-construits pour les systèmes d'exploitation courants, ce qui facilite son intégration dans les pipelines vocaux.
Suppression des locuteurs de fond: Conçu pour isoler l'appelant principal et réduire les voix humaines concurrentes (un mode de défaillance courant pour les agents vocaux et l'ASR), pas seulement le bruit stationnaire.
Performances CPU en temps réel: Traite les trames audio assez rapidement pour les appels en direct (rapporté à moins de ~1 ms par 10 ms d'audio) sans nécessiter de GPU.
Faible encombrement: La petite taille du modèle (~8 Mo ; ~1,8 million de paramètres) le rend pratique pour les déploiements sur site et en périphérie avec des ressources limitées.
Options de déploiement orientées production: Livré avec un bundle de production ONNX et une bibliothèque autonome pour une intégration directe en C/C++/Python, avec des binaires pré-construits pour Linux, macOS (Apple Silicon) et Windows.
Entraîné sur de grandes quantités de données bruyantes réelles: Entraîné sur plus de 10 000 heures d'audio mixte ; une grande partie comprend des locuteurs qui se chevauchent à des niveaux SIR modérés, améliorant la robustesse dans les appels réels.
Amélioration agnostique à la langue: Fonctionne dans toutes les langues car il améliore la qualité du signal acoustique plutôt que de s'appuyer sur le contenu linguistique.
Cas d'utilisation de Hush
Agents vocaux de centre d'appels et SVI: Nettoie l'audio téléphonique bruyant et supprime les conversations/télévisions de fond pour améliorer la compréhension de l'agent, réduire les relances et stabiliser les performances du bot vocal de bout en bout.
Pipelines de transcription en temps réel: Améliore la précision de la reconnaissance automatique de la parole (ASR) sur les conversations en direct ou enregistrées en améliorant la clarté de la parole et en réduisant les interférences du bruit et des locuteurs qui se chevauchent.
Intégration de clients BFSI, ventes et appels de recouvrement: Améliore l'intelligibilité dans les appels réglementés et à enjeux élevés (par exemple, KYC, conversations de prêt/recouvrement) où les environnements bruyants et le chevauchement des locuteurs sont courants.
Assistants vocaux dans des environnements bruyants: Aide les assistants à fonctionner dans les cafés, les rues, les bureaux et d'autres environnements réels en réduisant le bruit ambiant et en se concentrant sur le locuteur principal.
Examen des appels de conformité et d'assurance qualité: Améliore l'audio des appels enregistrés pour des audits plus clairs, une surveillance de la qualité et des analyses en aval (résumé, détection d'intention) en améliorant le signal source.
Avantages
Open-source (Apache 2.0) et conçu pour le déploiement en entreprise/sur site.
Fonctionnement en temps réel, uniquement sur CPU, avec une très faible latence et une petite taille de modèle.
Accent explicite sur la suppression des locuteurs de fond concurrents, un problème courant de l'IA vocale de production.
Inconvénients
Optimisé pour l'audio de streaming/appel à 16 kHz ; peut nécessiter un rééchantillonnage et une intégration de pipeline minutieuse pour d'autres formats.
En tant que modèle d'amélioration de la parole, il peut introduire des artefacts ou une sur-suppression dans des conditions de bruit/chevauchement extrêmes en fonction du domaine d'entrée.
Les meilleurs résultats peuvent dépendre d'une intégration de streaming basée sur des trames appropriée (état de session, taille de trame) plutôt que d'un simple traitement par lots hors ligne.
Comment utiliser Hush
1) Ouvrez la page du modèle Hush: Accédez au dépôt officiel Hugging Face pour le modèle : https://huggingface.co/weya-ai/hush
2) Choisissez votre chemin d'intégration (démo rapide vs. production): Décidez si vous souhaitez (a) essayer Hush via l'interface Hugging Face hébergée pour un test rapide, ou (b) l'intégrer dans votre propre pile Voice AI pour le traitement des appels en temps réel.
3) Essayez Hush dans le navigateur (test rapide): Sur la page du modèle Hugging Face, utilisez la démo/widget disponible (si affiché) pour exécuter un exemple et comparer l'entrée bruyante à la sortie améliorée.
4) Téléchargez les ressources du modèle pour une utilisation locale: À partir des fichiers du dépôt Hugging Face, téléchargez le point de contrôle et/ou le bundle de production ONNX (l'archive ONNX sous le répertoire onnx/) en fonction de vos besoins d'exécution.
5) Utilisez ONNX pour un déploiement CPU en temps réel: Pour une utilisation en production sans PyTorch, utilisez le bundle ONNX pré-construit afin que Hush puisse fonctionner entièrement sur CPU en temps réel (le modèle est conçu pour traiter des trames de ~10 ms avec un calcul inférieur à la milliseconde sur les CPU typiques).
6) Intégrez-le à votre pipeline audio à l'« avant »: Placez Hush avant l'ASR/transcription ou votre agent vocal afin que l'audio de l'appel soit amélioré en premier ; cela améliore l'intelligibilité et réduit le bruit de fond et la parole concurrente atteignant les composants en aval.
7) Alimentez l'audio en tant que flux en temps réel: Exécutez Hush en continu sur des trames audio en direct (par exemple, des blocs de 10 ms) pour maintenir une faible latence et un comportement en temps réel pour les appels et les systèmes conversationnels.
8) Validez sur vos environnements cibles: Testez avec vos conditions d'appel réelles (cafés, rues, bruit de bureau, locuteurs qui se chevauchent). Notez que Hush est entraîné avec des locuteurs de fond à un SIR modéré (environ 12 à 24 dB), de sorte que les locuteurs concurrents extrêmement bruyants peuvent ne pas être entièrement supprimés.
9) Comprenez ce qu'il ne faut pas utiliser comme sortie: Si vous voyez des références à une « tête de séparation » ou à un masque de locuteur de fond, traitez-le comme un régularisateur auxiliaire d'entraînement (masque doux de domaine ERB), et non comme une sortie de séparation de source autonome pour la production.
10) Déployez sur votre OS cible: Déployez le runtime CPU là où vous en avez besoin (Linux, macOS y compris Apple Silicon, ou Windows) en utilisant l'approche ONNX pour éviter les dépendances de production lourdes.
FAQ de Hush
Hush est un modèle open-source d'amélioration de la parole/suppression du bruit conçu pour l'IA vocale qui élimine le bruit de fond et supprime les locuteurs de fond concurrents de l'audio d'appel réel.
Vidéo de Hush
Articles populaires

Atoms : Une plateforme d'IA multi-agents qui transforme les idées en produits prêts à être lancés
May 22, 2026

Nano Banana SBTI : Qu'est-ce que c'est, comment ça marche et comment l'utiliser en 2026
Apr 15, 2026

Atoms : L'outil de création de produits IA qui redéfinit la création numérique en 2026
Apr 10, 2026

Kilo Claw : Comment déployer et utiliser un véritable agent d'IA "Faites-le pour vous" (Mise à jour 2026)
Apr 3, 2026







