¿Qué problema resuelve Hush para los sistemas de Voice AI?

Hush mejora la calidad del audio de las llamadas en vivo para que los sistemas posteriores (ASR, agentes de voz, bots de centros de llamadas, tuberías de transcripción) puedan entender al orador principal de manera más confiable, especialmente en entornos ruidosos y con voces superpuestas.

¿Hush se ejecuta en tiempo real y necesita una GPU?

Sí, Hush está diseñado para ejecutarse completamente en la CPU en tiempo real (típicamente menos de ~1 ms de procesamiento por cada 10 ms de cuadro de audio) y no requiere una GPU.

¿Qué tamaño tiene el modelo Hush?

El modelo tiene aproximadamente 8 MB.

¿Qué características de datos de entrenamiento se mencionan para Hush?

Hush fue entrenado con más de 10,000 horas de audio ruidoso mixto, con voces humanas compitiendo presentes en aproximadamente el 60% del conjunto de datos en relaciones señal-interferencia (SIR) de 12 a 24 dB.

¿En qué arquitectura se basa Hush?

Hush se basa en la arquitectura DeepFilterNet3 e incluye una mejora con un cabezal de separación auxiliar para suprimir mejor a los oradores de fondo.

¿Cómo se puede implementar Hush en producción?

Hush se puede implementar a través de ONNX (se proporciona un paquete de producción ONNX preconstruido), lo que permite la implementación solo con CPU en Linux, macOS (Apple Silicon) y Windows; el repositorio también hace referencia a una biblioteca Weya NC Standalone preconstruida para la implementación de producción sin PyTorch.

¿Es Hush de código abierto y qué licencia utiliza?

Sí. Los pesos del modelo y el código fuente están disponibles públicamente (por ejemplo, en Hugging Face y GitHub) bajo la licencia Apache 2.0.

¿Cómo se desempeñó Hush en los puntos de referencia públicos en su lanzamiento?

En su lanzamiento, Hush ocupó el puesto número 5 en la clasificación de Audio-a-Audio de Hugging Face, lo que lo sitúa entre los principales modelos de código abierto de su categoría.

Hush

WebsiteFreemiumVoice & Audio Editing

Hush es un modelo de mejora del habla de código abierto de 8 MB, en tiempo real para CPU, que suprime el ruido de fondo y los oradores que compiten para llamadas de Voz con IA de producción en menos de ~1 ms por fotograma de 10 ms.

Visitar Sitio Web

Anunciar Esta Herramienta

https://www.weya.ai/hush?ref=producthunt&utm_source=aipure

Resumen
Video
Alternativas

Información del Producto

Actualizado:08/07/2026

¿Qué es Hush?

Hush es el modelo de supresión de ruido y mejora del habla de código abierto interno de weya AI, construido específicamente para sistemas de Voz con IA de producción, como agentes telefónicos, bots de centros de llamadas, asistentes de voz y pipelines de transcripción en tiempo real. A diferencia de muchos modelos de mejora optimizados principalmente para puntos de referencia de ruido genéricos, Hush está diseñado para llamadas del mundo real donde el habla humana superpuesta es un punto de falla frecuente para ASR y la IA conversacional posterior. Es ligero (~1.8M parámetros, ~8 MB), se ejecuta completamente en la CPU en tiempo real y se distribuye con artefactos de implementación prácticos (punto de control de PyTorch y un paquete de producción ONNX) bajo la licencia Apache 2.0.

Características Principales de Hush

Hush es un modelo de mejora de voz/supresión de ruido en tiempo real de código abierto de weya AI, diseñado específicamente para la IA de voz en producción. Se ejecuta completamente en la CPU con una latencia muy baja (aproximadamente menos de 1 ms de procesamiento por cada 10 ms de trama de audio), es ligero (~8 MB, ~1.8M parámetros) y está entrenado con más de 10,000 horas de audio ruidoso mezclado, con un fuerte énfasis en la supresión de oradores de fondo que compiten (habla superpuesta) además del ruido ambiental típico. Es independiente del idioma (opera con características acústicas), compatible con la transmisión/causal, y se puede implementar a través de un paquete de producción ONNX o binarios independientes precompilados para sistemas operativos comunes, lo que facilita su integración en las tuberías de voz.

Supresión de oradores de fondo: Diseñado para aislar al interlocutor principal y reducir las voces humanas que compiten (un modo de fallo común para los agentes de voz y ASR), no solo el ruido estacionario.

Rendimiento de CPU en tiempo real: Procesa tramas de audio lo suficientemente rápido para llamadas en vivo (se informa que es inferior a ~1 ms por cada 10 ms de audio) sin requerir una GPU.

Huella ligera: El pequeño tamaño del modelo (~8 MB; ~1.8M parámetros) lo hace práctico para implementaciones locales y en el borde con recursos limitados.

Opciones de implementación orientadas a la producción: Se envía con un paquete de producción ONNX y una biblioteca independiente para la integración directa en C/C++/Python, con binarios precompilados para Linux, macOS (Apple Silicon) y Windows.

Entrenado con grandes cantidades de datos ruidosos del mundo real: Entrenado con más de 10,000 horas de audio mezclado; una gran parte incluye oradores superpuestos a niveles SIR moderados, lo que mejora la robustez en llamadas reales.

Mejora independiente del idioma: Funciona en todos los idiomas porque mejora la calidad de la señal acústica en lugar de depender del contenido lingüístico.

Casos de Uso de Hush

Agentes de voz de centros de llamadas e IVR: Limpia el audio telefónico ruidoso y suprime las conversaciones/TV de fondo para mejorar la comprensión del agente, reducir las repeticiones y estabilizar el rendimiento del bot de voz de extremo a extremo.

Tuberías de transcripción en tiempo real: Mejora la precisión de ASR en conversaciones en vivo o grabadas al mejorar la claridad del habla y reducir la interferencia del ruido y los oradores superpuestos.

Incorporación de clientes BFSI, ventas y llamadas de cobro: Aumenta la inteligibilidad en llamadas reguladas y de alto riesgo (por ejemplo, KYC, conversaciones de préstamos/cobros) donde los entornos ruidosos y la superposición de oradores son comunes.

Asistentes de voz en entornos ruidosos: Ayuda a los asistentes a funcionar en cafeterías, calles, oficinas y otros entornos del mundo real al reducir el ruido ambiental y centrarse en el orador principal.

Revisión de llamadas de cumplimiento y control de calidad: Mejora el audio de las llamadas grabadas para auditorías más claras, monitoreo de calidad y análisis posteriores (resumen, detección de intenciones) al mejorar la señal de origen.

Ventajas

Código abierto (Apache 2.0) y diseñado para implementación empresarial/local.

Operación en tiempo real, solo con CPU, con muy baja latencia y pequeño tamaño de modelo.

Enfoque explícito en la supresión de oradores de fondo que compiten, un problema común en la IA de voz de producción.

Desventajas

Optimizado para audio de transmisión/llamadas de 16 kHz; puede requerir remuestreo e integración cuidadosa de la tubería para otros formatos.

Como modelo de mejora del habla, puede introducir artefactos o suprimir en exceso en condiciones extremas de ruido/superposición, dependiendo del dominio de entrada.

Los mejores resultados pueden depender de una integración adecuada de la transmisión basada en tramas (estado de la sesión, tamaño de la trama) en lugar de un simple procesamiento por lotes fuera de línea.

Cómo Usar Hush

1) Abrir la página del modelo Hush: Ve al repositorio oficial de Hugging Face para el modelo: https://huggingface.co/weya-ai/hush

2) Elige tu ruta de integración (demostración rápida vs. producción): Decide si quieres (a) probar Hush a través de la interfaz alojada de Hugging Face para una prueba rápida, o (b) integrarlo en tu propia pila de Voz con IA para el procesamiento de llamadas en tiempo real.

3) Prueba Hush en el navegador (prueba rápida): En la página del modelo de Hugging Face, usa la demostración/widget disponible (si se muestra) para ejecutar un ejemplo y comparar la entrada ruidosa con la salida mejorada.

4) Descarga los activos del modelo para uso local: Desde los archivos del repositorio de Hugging Face, descarga el punto de control y/o el paquete de producción ONNX (el tarball ONNX en el directorio onnx/) según tus necesidades de tiempo de ejecución.

5) Usa ONNX para la implementación en tiempo real de la CPU: Para uso en producción sin PyTorch, usa el paquete ONNX preconstruido para que Hush pueda ejecutarse completamente en la CPU en tiempo real (el modelo está diseñado para procesar fotogramas de ~10 ms con un cálculo de sub-ms en CPU típicas).

6) Intégralo en tu pipeline de audio al 'frente': Coloca Hush antes de ASR/transcripción o de tu agente de voz para que el audio de la llamada se mejore primero; esto mejora la inteligibilidad y reduce el ruido de fondo y el habla competitiva que llega a los componentes posteriores.

7) Alimenta el audio como un flujo en tiempo real: Ejecuta Hush continuamente en fotogramas de audio en vivo (por ejemplo, fragmentos de 10 ms) para mantener la latencia baja y mantener el comportamiento en tiempo real para llamadas y sistemas conversacionales.

8) Valida en tus entornos objetivo: Prueba con tus condiciones de llamada reales (cafeterías, calles, ruido de oficina, oradores superpuestos). Ten en cuenta que Hush está entrenado con oradores de fondo con SIR moderado (aproximadamente 12–24 dB), por lo que los oradores competitivos extremadamente ruidosos pueden no ser completamente suprimidos.

9) Entiende qué no usar como salida: Si ves referencias a un 'cabezal de separación' o máscara de orador de fondo, trátalo como un regularizador auxiliar en tiempo de entrenamiento (máscara suave de dominio ERB), no como una salida de separación de fuente independiente para producción.

10) Implementa en tu sistema operativo objetivo: Implementa el tiempo de ejecución de la CPU donde lo necesites (Linux, macOS incluyendo Apple Silicon, o Windows) usando el enfoque ONNX para evitar dependencias de producción pesadas.

Preguntas Frecuentes de Hush

Hush es un modelo de mejora de voz/supresión de ruido de código abierto creado para Voice AI que elimina el ruido de fondo y suprime a los oradores de fondo que compiten en el audio de llamadas del mundo real.

Video de Hush

Artículos Populares

Atoms: Una Plataforma de IA Multiagente Que Transforma Ideas en Productos Listos para Lanzar

May 22, 2026

Nano Banana SBTI: Qué es, cómo funciona y cómo usarlo en 2026

Apr 15, 2026

Reseña de Atoms: El Constructor de Productos de IA que Redefine la Creación Digital en 2026

Apr 10, 2026

Kilo Claw: Cómo implementar y usar un verdadero agente de IA "Hágalo por usted" (Actualización 2026)

Apr 3, 2026

Últimas herramientas de IA similares a Hush

EchoWave

FreemiumAI Video Editing Voice & Audio Editing AI Social Media Assistant

EchoWave es una plataforma en línea de edición de video y audio que permite a los creadores convertir contenido de audio en videos atractivos con visualizaciones de formas de onda, subtítulos y efectos para compartir en redes sociales.

AIdeaflow Podcast

FreeAI Podcast Assistant Text to Speech Voice & Audio Editing

AIdeaflow Podcast es una plataforma impulsada por IA que transforma texto en contenido atractivo de podcast con conversaciones naturales en más de 120 voces y múltiples idiomas.

TranscribetoText.AI

FreemiumTranscription AI Speech Recognition Voice & Audio Editing

TranscribeToText.AI es un poderoso servicio de transcripción en línea que convierte archivos de audio y video a texto en más de 120 idiomas con una precisión del 99.9%, ofreciendo acceso ilimitado a transcripciones y opciones de salida flexibles.

Rift Podcast

Free TrialAI Podcast Assistant Text to Speech Voice & Audio Editing

Rift Podcast es una aplicación impulsada por IA que transforma contenido web en podcasts de audio personalizados, ofreciendo perspectivas exclusivas seleccionadas de varias plataformas tecnológicas y entregadas en solo 15 minutos diarios.

Herramientas de IA populares como Hush

W-Okada Voice Changer

FreemiumAI Voice Changer Voice & Audio Editing AI Voice Chat Generator

W-Okada Voice Changer es un software de conversión de voz en tiempo real de código abierto que utiliza IA para transformar voces con alta calidad y baja latencia.

FnKey

FreeText to Speech Voice & Audio Editing

FnKey es una aplicación ligera de la barra de menú de macOS que permite la transcripción rápida de voz a texto manteniendo presionada la tecla Fn para hablar y pega automáticamente el texto transcrito cuando se suelta.

Background noise removal

FreeAI Noise Cancellation Voice & Audio Editing

Una poderosa extensión de Chrome que utiliza tecnología avanzada de IA para eliminar el ruido de fondo no deseado de archivos de audio y video, ofreciendo cancelación de ruido en tiempo real para una calidad de sonido cristalina.

Audio player for ChatGPT

FreeText to Speech Voice & Audio Editing

Una extensión de Chrome que mejora la función de Lectura en voz alta de ChatGPT al agregar un reproductor de audio fácil de usar con controles básicos como reproducción/pausa, barra de búsqueda y visualización de la duración.

Clasificación

Enviar y PromoverNew

Hush

Información del Producto

¿Qué es Hush?

Características Principales de Hush

Casos de Uso de Hush

Ventajas

Desventajas

Cómo Usar Hush

Preguntas Frecuentes de Hush

1. ¿Qué es Hush de weya AI?

2. ¿Qué problema resuelve Hush para los sistemas de Voice AI?

3. ¿Hush se ejecuta en tiempo real y necesita una GPU?

4. ¿Qué tamaño tiene el modelo Hush?

5. ¿Qué características de datos de entrenamiento se mencionan para Hush?

6. ¿En qué arquitectura se basa Hush?

7. ¿Cómo se puede implementar Hush en producción?

8. ¿Es Hush de código abierto y qué licencia utiliza?

9. ¿Cómo se desempeñó Hush en los puntos de referencia públicos en su lanzamiento?

Video de Hush

Artículos Populares

Últimas herramientas de IA similares a Hush

Herramientas de IA populares como Hush