Hush

Hush

WebsiteFreemiumVoice & Audio Editing
Hush es un modelo de mejora del habla de código abierto de 8 MB, en tiempo real para CPU, que suprime el ruido de fondo y los oradores que compiten para llamadas de Voz con IA de producción en menos de ~1 ms por fotograma de 10 ms.
https://www.weya.ai/hush?ref=producthunt&utm_source=aipure
Hush

Información del Producto

Actualizado:24/06/2026

¿Qué es Hush?

Hush es el modelo de supresión de ruido y mejora del habla de código abierto interno de weya AI, construido específicamente para sistemas de Voz con IA de producción, como agentes telefónicos, bots de centros de llamadas, asistentes de voz y pipelines de transcripción en tiempo real. A diferencia de muchos modelos de mejora optimizados principalmente para puntos de referencia de ruido genéricos, Hush está diseñado para llamadas del mundo real donde el habla humana superpuesta es un punto de falla frecuente para ASR y la IA conversacional posterior. Es ligero (~1.8M parámetros, ~8 MB), se ejecuta completamente en la CPU en tiempo real y se distribuye con artefactos de implementación prácticos (punto de control de PyTorch y un paquete de producción ONNX) bajo la licencia Apache 2.0.

Características Principales de Hush

Hush es un modelo de mejora de voz/supresión de ruido en tiempo real de código abierto de weya AI, diseñado específicamente para la IA de voz en producción. Se ejecuta completamente en la CPU con una latencia muy baja (aproximadamente menos de 1 ms de procesamiento por cada 10 ms de trama de audio), es ligero (~8 MB, ~1.8M parámetros) y está entrenado con más de 10,000 horas de audio ruidoso mezclado, con un fuerte énfasis en la supresión de oradores de fondo que compiten (habla superpuesta) además del ruido ambiental típico. Es independiente del idioma (opera con características acústicas), compatible con la transmisión/causal, y se puede implementar a través de un paquete de producción ONNX o binarios independientes precompilados para sistemas operativos comunes, lo que facilita su integración en las tuberías de voz.
Supresión de oradores de fondo: Diseñado para aislar al interlocutor principal y reducir las voces humanas que compiten (un modo de fallo común para los agentes de voz y ASR), no solo el ruido estacionario.
Rendimiento de CPU en tiempo real: Procesa tramas de audio lo suficientemente rápido para llamadas en vivo (se informa que es inferior a ~1 ms por cada 10 ms de audio) sin requerir una GPU.
Huella ligera: El pequeño tamaño del modelo (~8 MB; ~1.8M parámetros) lo hace práctico para implementaciones locales y en el borde con recursos limitados.
Opciones de implementación orientadas a la producción: Se envía con un paquete de producción ONNX y una biblioteca independiente para la integración directa en C/C++/Python, con binarios precompilados para Linux, macOS (Apple Silicon) y Windows.
Entrenado con grandes cantidades de datos ruidosos del mundo real: Entrenado con más de 10,000 horas de audio mezclado; una gran parte incluye oradores superpuestos a niveles SIR moderados, lo que mejora la robustez en llamadas reales.
Mejora independiente del idioma: Funciona en todos los idiomas porque mejora la calidad de la señal acústica en lugar de depender del contenido lingüístico.

Casos de Uso de Hush

Agentes de voz de centros de llamadas e IVR: Limpia el audio telefónico ruidoso y suprime las conversaciones/TV de fondo para mejorar la comprensión del agente, reducir las repeticiones y estabilizar el rendimiento del bot de voz de extremo a extremo.
Tuberías de transcripción en tiempo real: Mejora la precisión de ASR en conversaciones en vivo o grabadas al mejorar la claridad del habla y reducir la interferencia del ruido y los oradores superpuestos.
Incorporación de clientes BFSI, ventas y llamadas de cobro: Aumenta la inteligibilidad en llamadas reguladas y de alto riesgo (por ejemplo, KYC, conversaciones de préstamos/cobros) donde los entornos ruidosos y la superposición de oradores son comunes.
Asistentes de voz en entornos ruidosos: Ayuda a los asistentes a funcionar en cafeterías, calles, oficinas y otros entornos del mundo real al reducir el ruido ambiental y centrarse en el orador principal.
Revisión de llamadas de cumplimiento y control de calidad: Mejora el audio de las llamadas grabadas para auditorías más claras, monitoreo de calidad y análisis posteriores (resumen, detección de intenciones) al mejorar la señal de origen.

Ventajas

Código abierto (Apache 2.0) y diseñado para implementación empresarial/local.
Operación en tiempo real, solo con CPU, con muy baja latencia y pequeño tamaño de modelo.
Enfoque explícito en la supresión de oradores de fondo que compiten, un problema común en la IA de voz de producción.

Desventajas

Optimizado para audio de transmisión/llamadas de 16 kHz; puede requerir remuestreo e integración cuidadosa de la tubería para otros formatos.
Como modelo de mejora del habla, puede introducir artefactos o suprimir en exceso en condiciones extremas de ruido/superposición, dependiendo del dominio de entrada.
Los mejores resultados pueden depender de una integración adecuada de la transmisión basada en tramas (estado de la sesión, tamaño de la trama) en lugar de un simple procesamiento por lotes fuera de línea.

Cómo Usar Hush

1) Abrir la página del modelo Hush: Ve al repositorio oficial de Hugging Face para el modelo: https://huggingface.co/weya-ai/hush
2) Elige tu ruta de integración (demostración rápida vs. producción): Decide si quieres (a) probar Hush a través de la interfaz alojada de Hugging Face para una prueba rápida, o (b) integrarlo en tu propia pila de Voz con IA para el procesamiento de llamadas en tiempo real.
3) Prueba Hush en el navegador (prueba rápida): En la página del modelo de Hugging Face, usa la demostración/widget disponible (si se muestra) para ejecutar un ejemplo y comparar la entrada ruidosa con la salida mejorada.
4) Descarga los activos del modelo para uso local: Desde los archivos del repositorio de Hugging Face, descarga el punto de control y/o el paquete de producción ONNX (el tarball ONNX en el directorio onnx/) según tus necesidades de tiempo de ejecución.
5) Usa ONNX para la implementación en tiempo real de la CPU: Para uso en producción sin PyTorch, usa el paquete ONNX preconstruido para que Hush pueda ejecutarse completamente en la CPU en tiempo real (el modelo está diseñado para procesar fotogramas de ~10 ms con un cálculo de sub-ms en CPU típicas).
6) Intégralo en tu pipeline de audio al 'frente': Coloca Hush antes de ASR/transcripción o de tu agente de voz para que el audio de la llamada se mejore primero; esto mejora la inteligibilidad y reduce el ruido de fondo y el habla competitiva que llega a los componentes posteriores.
7) Alimenta el audio como un flujo en tiempo real: Ejecuta Hush continuamente en fotogramas de audio en vivo (por ejemplo, fragmentos de 10 ms) para mantener la latencia baja y mantener el comportamiento en tiempo real para llamadas y sistemas conversacionales.
8) Valida en tus entornos objetivo: Prueba con tus condiciones de llamada reales (cafeterías, calles, ruido de oficina, oradores superpuestos). Ten en cuenta que Hush está entrenado con oradores de fondo con SIR moderado (aproximadamente 12–24 dB), por lo que los oradores competitivos extremadamente ruidosos pueden no ser completamente suprimidos.
9) Entiende qué no usar como salida: Si ves referencias a un 'cabezal de separación' o máscara de orador de fondo, trátalo como un regularizador auxiliar en tiempo de entrenamiento (máscara suave de dominio ERB), no como una salida de separación de fuente independiente para producción.
10) Implementa en tu sistema operativo objetivo: Implementa el tiempo de ejecución de la CPU donde lo necesites (Linux, macOS incluyendo Apple Silicon, o Windows) usando el enfoque ONNX para evitar dependencias de producción pesadas.

Preguntas Frecuentes de Hush

Hush es un modelo de mejora de voz/supresión de ruido de código abierto creado para Voice AI que elimina el ruido de fondo y suprime a los oradores de fondo que compiten en el audio de llamadas del mundo real.

Últimas herramientas de IA similares a Hush

EchoWave
EchoWave
EchoWave es una plataforma en línea de edición de video y audio que permite a los creadores convertir contenido de audio en videos atractivos con visualizaciones de formas de onda, subtítulos y efectos para compartir en redes sociales.
AIdeaflow Podcast
AIdeaflow Podcast
AIdeaflow Podcast es una plataforma impulsada por IA que transforma texto en contenido atractivo de podcast con conversaciones naturales en más de 120 voces y múltiples idiomas.
TranscribetoText.AI
TranscribetoText.AI
TranscribeToText.AI es un poderoso servicio de transcripción en línea que convierte archivos de audio y video a texto en más de 120 idiomas con una precisión del 99.9%, ofreciendo acceso ilimitado a transcripciones y opciones de salida flexibles.
Rift Podcast
Rift Podcast
Rift Podcast es una aplicación impulsada por IA que transforma contenido web en podcasts de audio personalizados, ofreciendo perspectivas exclusivas seleccionadas de varias plataformas tecnológicas y entregadas en solo 15 minutos diarios.