Quel problème Hush résout-il pour les systèmes d'IA vocale ?

Hush améliore la qualité de l'audio des appels en direct afin que les systèmes en aval (ASR, agents vocaux, robots de centre d'appels, pipelines de transcription) puissent comprendre le locuteur principal de manière plus fiable, en particulier dans les environnements bruyants et avec des voix qui se chevauchent.

Hush fonctionne-t-il en temps réel et a-t-il besoin d'un GPU ?

Oui, Hush est conçu pour fonctionner entièrement sur CPU en temps réel (généralement moins de ~1 ms de traitement par trame audio de 10 ms) et ne nécessite pas de GPU.

Quelles sont les caractéristiques des données d'entraînement mentionnées pour Hush ?

Hush a été entraîné sur plus de 10 000 heures d'audio bruyant mixte, avec des voix humaines concurrentes présentes dans environ 60 % de l'ensemble de données à des rapports signal/interférence (SIR) de 12 à 24 dB.

Sur quelle architecture Hush est-il basé ?

Hush est basé sur l'architecture DeepFilterNet3 et inclut une amélioration avec une tête de séparation auxiliaire pour mieux supprimer les locuteurs de fond.

Comment Hush peut-il être déployé en production ?

Hush peut être déployé via ONNX (un bundle de production ONNX pré-construit est fourni), permettant un déploiement uniquement sur CPU sous Linux, macOS (Apple Silicon) et Windows ; le dépôt fait également référence à une bibliothèque Weya NC Standalone pré-construite pour un déploiement en production sans PyTorch.

Hush est-il open source et quelle licence utilise-t-il ?

Oui. Les poids du modèle et le code source sont disponibles publiquement (par exemple, sur Hugging Face et GitHub) sous la licence Apache 2.0.

Comment Hush a-t-il performé sur les benchmarks publics lors de son lancement ?

Lors de son lancement, Hush s'est classé 5e au classement Audio-to-Audio de Hugging Face, le plaçant parmi les meilleurs modèles open-source de sa catégorie.

Hush

WebsiteFreemiumVoice & Audio Editing

Hush est un modèle d'amélioration de la parole open-source de 8 Mo, fonctionnant en temps réel sur CPU, qui supprime le bruit de fond et les locuteurs concurrents pour les appels d'IA vocale de production en moins de ~1 ms par trame de 10 ms.

Visiter le site web

Promouvoir cet outil

https://www.weya.ai/hush?ref=producthunt&utm_source=aipure

Aperçu
Vidéo
Alternatives

Informations sur le produit

Mis à jour:Jul 8, 2026

Qu'est-ce que Hush

Hush est le modèle open-source de suppression de bruit et d'amélioration de la parole de weya AI, conçu spécifiquement pour les systèmes d'IA vocale de production tels que les agents téléphoniques, les robots de centre d'appels, les assistants vocaux et les pipelines de transcription en temps réel. Contrairement à de nombreux modèles d'amélioration optimisés principalement pour des benchmarks de bruit génériques, Hush est conçu pour les appels réels où le chevauchement de la parole humaine est un point de défaillance fréquent pour l'ASR et l'IA conversationnelle en aval. Il est léger (~1,8 million de paramètres, ~8 Mo), fonctionne entièrement sur CPU en temps réel et est distribué avec des artefacts de déploiement pratiques (point de contrôle PyTorch et un bundle de production ONNX) sous la licence Apache 2.0.

Caractéristiques principales de Hush

Hush est un modèle open-source d'amélioration de la parole/suppression du bruit en temps réel de weya AI, conçu spécifiquement pour l'IA vocale de production. Il fonctionne entièrement sur CPU avec une très faible latence (environ moins de 1 ms de traitement par trame audio de 10 ms), est léger (~8 Mo, ~1,8 million de paramètres) et est entraîné sur plus de 10 000 heures d'audio bruyant mixte, avec un fort accent sur la suppression des locuteurs de fond concurrents (parole superposée) en plus du bruit ambiant typique. Il est agnostique à la langue (fonctionne sur des caractéristiques acoustiques), compatible avec le streaming/causal, et peut être déployé via un bundle de production ONNX ou des binaires autonomes pré-construits pour les systèmes d'exploitation courants, ce qui facilite son intégration dans les pipelines vocaux.

Suppression des locuteurs de fond: Conçu pour isoler l'appelant principal et réduire les voix humaines concurrentes (un mode de défaillance courant pour les agents vocaux et l'ASR), pas seulement le bruit stationnaire.

Performances CPU en temps réel: Traite les trames audio assez rapidement pour les appels en direct (rapporté à moins de ~1 ms par 10 ms d'audio) sans nécessiter de GPU.

Faible encombrement: La petite taille du modèle (~8 Mo ; ~1,8 million de paramètres) le rend pratique pour les déploiements sur site et en périphérie avec des ressources limitées.

Options de déploiement orientées production: Livré avec un bundle de production ONNX et une bibliothèque autonome pour une intégration directe en C/C++/Python, avec des binaires pré-construits pour Linux, macOS (Apple Silicon) et Windows.

Entraîné sur de grandes quantités de données bruyantes réelles: Entraîné sur plus de 10 000 heures d'audio mixte ; une grande partie comprend des locuteurs qui se chevauchent à des niveaux SIR modérés, améliorant la robustesse dans les appels réels.

Amélioration agnostique à la langue: Fonctionne dans toutes les langues car il améliore la qualité du signal acoustique plutôt que de s'appuyer sur le contenu linguistique.

Cas d'utilisation de Hush

Agents vocaux de centre d'appels et SVI: Nettoie l'audio téléphonique bruyant et supprime les conversations/télévisions de fond pour améliorer la compréhension de l'agent, réduire les relances et stabiliser les performances du bot vocal de bout en bout.

Pipelines de transcription en temps réel: Améliore la précision de la reconnaissance automatique de la parole (ASR) sur les conversations en direct ou enregistrées en améliorant la clarté de la parole et en réduisant les interférences du bruit et des locuteurs qui se chevauchent.

Intégration de clients BFSI, ventes et appels de recouvrement: Améliore l'intelligibilité dans les appels réglementés et à enjeux élevés (par exemple, KYC, conversations de prêt/recouvrement) où les environnements bruyants et le chevauchement des locuteurs sont courants.

Assistants vocaux dans des environnements bruyants: Aide les assistants à fonctionner dans les cafés, les rues, les bureaux et d'autres environnements réels en réduisant le bruit ambiant et en se concentrant sur le locuteur principal.

Examen des appels de conformité et d'assurance qualité: Améliore l'audio des appels enregistrés pour des audits plus clairs, une surveillance de la qualité et des analyses en aval (résumé, détection d'intention) en améliorant le signal source.

Avantages

Open-source (Apache 2.0) et conçu pour le déploiement en entreprise/sur site.

Fonctionnement en temps réel, uniquement sur CPU, avec une très faible latence et une petite taille de modèle.

Accent explicite sur la suppression des locuteurs de fond concurrents, un problème courant de l'IA vocale de production.

Inconvénients

Optimisé pour l'audio de streaming/appel à 16 kHz ; peut nécessiter un rééchantillonnage et une intégration de pipeline minutieuse pour d'autres formats.

En tant que modèle d'amélioration de la parole, il peut introduire des artefacts ou une sur-suppression dans des conditions de bruit/chevauchement extrêmes en fonction du domaine d'entrée.

Les meilleurs résultats peuvent dépendre d'une intégration de streaming basée sur des trames appropriée (état de session, taille de trame) plutôt que d'un simple traitement par lots hors ligne.

Comment utiliser Hush

1) Ouvrez la page du modèle Hush: Accédez au dépôt officiel Hugging Face pour le modèle : https://huggingface.co/weya-ai/hush

2) Choisissez votre chemin d'intégration (démo rapide vs. production): Décidez si vous souhaitez (a) essayer Hush via l'interface Hugging Face hébergée pour un test rapide, ou (b) l'intégrer dans votre propre pile Voice AI pour le traitement des appels en temps réel.

3) Essayez Hush dans le navigateur (test rapide): Sur la page du modèle Hugging Face, utilisez la démo/widget disponible (si affiché) pour exécuter un exemple et comparer l'entrée bruyante à la sortie améliorée.

4) Téléchargez les ressources du modèle pour une utilisation locale: À partir des fichiers du dépôt Hugging Face, téléchargez le point de contrôle et/ou le bundle de production ONNX (l'archive ONNX sous le répertoire onnx/) en fonction de vos besoins d'exécution.

5) Utilisez ONNX pour un déploiement CPU en temps réel: Pour une utilisation en production sans PyTorch, utilisez le bundle ONNX pré-construit afin que Hush puisse fonctionner entièrement sur CPU en temps réel (le modèle est conçu pour traiter des trames de ~10 ms avec un calcul inférieur à la milliseconde sur les CPU typiques).

6) Intégrez-le à votre pipeline audio à l'« avant »: Placez Hush avant l'ASR/transcription ou votre agent vocal afin que l'audio de l'appel soit amélioré en premier ; cela améliore l'intelligibilité et réduit le bruit de fond et la parole concurrente atteignant les composants en aval.

7) Alimentez l'audio en tant que flux en temps réel: Exécutez Hush en continu sur des trames audio en direct (par exemple, des blocs de 10 ms) pour maintenir une faible latence et un comportement en temps réel pour les appels et les systèmes conversationnels.

8) Validez sur vos environnements cibles: Testez avec vos conditions d'appel réelles (cafés, rues, bruit de bureau, locuteurs qui se chevauchent). Notez que Hush est entraîné avec des locuteurs de fond à un SIR modéré (environ 12 à 24 dB), de sorte que les locuteurs concurrents extrêmement bruyants peuvent ne pas être entièrement supprimés.

9) Comprenez ce qu'il ne faut pas utiliser comme sortie: Si vous voyez des références à une « tête de séparation » ou à un masque de locuteur de fond, traitez-le comme un régularisateur auxiliaire d'entraînement (masque doux de domaine ERB), et non comme une sortie de séparation de source autonome pour la production.

10) Déployez sur votre OS cible: Déployez le runtime CPU là où vous en avez besoin (Linux, macOS y compris Apple Silicon, ou Windows) en utilisant l'approche ONNX pour éviter les dépendances de production lourdes.

FAQ de Hush

Hush est un modèle open-source d'amélioration de la parole/suppression du bruit conçu pour l'IA vocale qui élimine le bruit de fond et supprime les locuteurs de fond concurrents de l'audio d'appel réel.

Vidéo de Hush

Articles populaires

Atoms : Une plateforme d'IA multi-agents qui transforme les idées en produits prêts à être lancés

May 22, 2026

Nano Banana SBTI : Qu'est-ce que c'est, comment ça marche et comment l'utiliser en 2026

Apr 15, 2026

Atoms : L'outil de création de produits IA qui redéfinit la création numérique en 2026

Apr 10, 2026

Kilo Claw : Comment déployer et utiliser un véritable agent d'IA "Faites-le pour vous" (Mise à jour 2026)

Apr 3, 2026

Derniers outils d'IA similaires à Hush

EchoWave

FreemiumAI Video Editing Voice & Audio Editing AI Social Media Assistant

EchoWave est une plateforme de montage vidéo et audio en ligne qui permet aux créateurs de convertir du contenu audio en vidéos engageantes avec des visualisations de formes d'onde, des sous-titres et des effets pour le partage sur les réseaux sociaux.

AIdeaflow Podcast

FreeAI Podcast Assistant Text to Speech Voice & Audio Editing

AIdeaflow Podcast est une plateforme alimentée par l'IA qui transforme le texte en contenu de podcast engageant avec des conversations naturelles dans plus de 120 voix et plusieurs langues.

TranscribetoText.AI

FreemiumTranscription AI Speech Recognition Voice & Audio Editing

TranscribeToText.AI est un puissant service de transcription en ligne qui convertit des fichiers audio et vidéo en texte dans plus de 120 langues avec une précision de 99,9 %, offrant un accès illimité à la transcription et des options de sortie flexibles.

Rift Podcast

Free TrialAI Podcast Assistant Text to Speech Voice & Audio Editing

Rift Podcast est une application alimentée par l'IA qui transforme le contenu web en podcasts audio personnalisés, offrant des informations exclusives sélectionnées à partir de diverses plateformes technologiques et livrées en seulement 15 minutes par jour.

Outils d'IA populaires comme Hush

W-Okada Voice Changer

FreemiumAI Voice Changer Voice & Audio Editing AI Voice Chat Generator

Le W-Okada Voice Changer est un logiciel de conversion vocale en temps réel open-source qui utilise l'IA pour transformer les voix avec une haute qualité et une faible latence.

FnKey

FreeText to Speech Voice & Audio Editing

FnKey est une application légère de la barre de menu macOS qui permet une transcription rapide de la voix au texte en maintenant la touche Fn enfoncée pour parler et colle automatiquement le texte transcrit une fois relâchée.

Background noise removal

FreeAI Noise Cancellation Voice & Audio Editing

Une puissante extension Chrome qui utilise une technologie IA avancée pour supprimer les bruits de fond indésirables des fichiers audio et vidéo, offrant une annulation de bruit en temps réel pour une qualité sonore cristalline.

Audio player for ChatGPT

FreeText to Speech Voice & Audio Editing

Une extension Chrome qui améliore la fonctionnalité de lecture à voix haute de ChatGPT en ajoutant un lecteur audio convivial avec des commandes de base telles que la lecture/pause, la barre de recherche et l'affichage de la durée.

Classement

Soumettre & PromouvoirNew

Hush

Informations sur le produit

Qu'est-ce que Hush

Caractéristiques principales de Hush

Cas d'utilisation de Hush

Avantages

Inconvénients

Comment utiliser Hush

FAQ de Hush

1. Qu'est-ce que Hush par weya AI ?

2. Quel problème Hush résout-il pour les systèmes d'IA vocale ?

3. Hush fonctionne-t-il en temps réel et a-t-il besoin d'un GPU ?

4. Quelle est la taille du modèle Hush ?

5. Quelles sont les caractéristiques des données d'entraînement mentionnées pour Hush ?

6. Sur quelle architecture Hush est-il basé ?

7. Comment Hush peut-il être déployé en production ?

8. Hush est-il open source et quelle licence utilise-t-il ?

9. Comment Hush a-t-il performé sur les benchmarks publics lors de son lancement ?

Vidéo de Hush

Articles populaires

Derniers outils d'IA similaires à Hush

Outils d'IA populaires comme Hush