Hush

Hush

WebsiteFreemiumVoice & Audio Editing
Hush é um modelo de aprimoramento de fala de código aberto de 8 MB, em tempo real na CPU, que suprime ruído de fundo e falantes concorrentes para chamadas de IA de Voz de produção em menos de ~1 ms por quadro de 10 ms.
https://www.weya.ai/hush?ref=producthunt&utm_source=aipure
Hush

Informações do Produto

Atualizado:Jun 24, 2026

O que é Hush

Hush é o modelo de supressão de ruído e aprimoramento de fala de código aberto interno da weya AI, construído especificamente para sistemas de IA de Voz de produção, como agentes telefônicos, bots de call center, assistentes de voz e pipelines de transcrição em tempo real. Ao contrário de muitos modelos de aprimoramento otimizados principalmente para benchmarks de ruído genéricos, o Hush é projetado para chamadas do mundo real, onde a fala humana sobreposta é um ponto de falha frequente para ASR e IA conversacional a jusante. É leve (~1.8M parâmetros, ~8 MB), executa totalmente na CPU em tempo real e é distribuído com artefatos de implantação práticos (checkpoint PyTorch e um pacote de produção ONNX) sob a licença Apache 2.0.

Principais Recursos do Hush

Hush é um modelo de aprimoramento de fala/supressão de ruído em tempo real de código aberto da weya AI, desenvolvido especificamente para produção de Voz AI. Ele funciona totalmente na CPU com latência muito baixa (cerca de menos de 1 ms de processamento por quadro de áudio de 10 ms), é leve (~8 MB, ~1,8M parâmetros) e é treinado em mais de 10.000 horas de áudio ruidoso misto com forte ênfase na supressão de falantes de fundo concorrentes (fala sobreposta), além do ruído ambiente típico. É agnóstico em relação ao idioma (opera em recursos acústicos), compatível com causal/streaming e pode ser implantado por meio de um pacote de produção ONNX ou binários autônomos pré-construídos para sistemas operacionais comuns, facilitando a integração em pipelines de voz.
Supressão de falantes de fundo: Projetado para isolar o chamador principal e reduzir vozes humanas concorrentes (um modo de falha comum para agentes de voz e ASR), não apenas ruído estacionário.
Desempenho da CPU em tempo real: Processa quadros de áudio rápido o suficiente para chamadas ao vivo (relatado em menos de ~1 ms por 10 ms de áudio) sem exigir uma GPU.
Pegada leve: O pequeno tamanho do modelo (~8 MB; ~1,8M parâmetros) o torna prático para implantações locais e de borda com recursos limitados.
Opções de implantação orientadas para produção: Vem com um pacote de produção ONNX e uma biblioteca autônoma para integração direta em C/C++/Python, com binários pré-construídos para Linux, macOS (Apple Silicon) e Windows.
Treinado em dados ruidosos do mundo real em larga escala: Treinado em mais de 10.000 horas de áudio misto; uma grande parte inclui falantes sobrepostos em níveis SIR moderados, melhorando a robustez em chamadas reais.
Aprimoramento agnóstico em relação ao idioma: Funciona em vários idiomas porque aprimora a qualidade do sinal acústico em vez de depender do conteúdo linguístico.

Casos de Uso do Hush

Agentes de voz de call center e URA: Limpa o áudio ruidoso do telefone e suprime conversas/TV de fundo para melhorar a compreensão do agente, reduzir repetições e estabilizar o desempenho do bot de voz de ponta a ponta.
Pipelines de transcrição em tempo real: Melhora a precisão do ASR em conversas ao vivo ou gravadas, aprimorando a clareza da fala e reduzindo a interferência de ruído e falantes sobrepostos.
Onboarding de clientes BFSI, vendas e chamadas de cobrança: Aumenta a inteligibilidade em chamadas regulamentadas e de alto risco (por exemplo, KYC, conversas de empréstimo/cobrança) onde ambientes ruidosos e sobreposição de falantes são comuns.
Assistentes de voz em ambientes ruidosos: Ajuda os assistentes a funcionar em cafés, ruas, escritórios e outros ambientes do mundo real, reduzindo o ruído ambiente e focando no falante principal.
Revisão de chamadas de conformidade e controle de qualidade: Aprimora o áudio de chamadas gravadas para auditorias mais claras, monitoramento de qualidade e análises posteriores (resumo, detecção de intenção), melhorando o sinal de origem.

Vantagens

Código aberto (Apache 2.0) e projetado para implantação empresarial/local.
Operação em tempo real, apenas CPU, com latência muito baixa e tamanho de modelo pequeno.
Foco explícito na supressão de falantes de fundo concorrentes, um problema comum na produção de Voz AI.

Desvantagens

Otimizado para áudio de streaming/chamada de 16 kHz; pode exigir reamostragem e integração cuidadosa do pipeline para outros formatos.
Como um modelo de aprimoramento de fala, pode introduzir artefatos ou suprimir excessivamente em condições extremas de ruído/sobreposição, dependendo do domínio de entrada.
Os melhores resultados podem depender de uma integração de streaming baseada em quadros adequada (estado da sessão, dimensionamento de quadros) em vez de um simples processamento em lote offline.

Como Usar o Hush

1) Abra a página do modelo Hush: Vá para o repositório oficial do Hugging Face para o modelo: https://huggingface.co/weya-ai/hush
2) Escolha seu caminho de integração (demonstração rápida vs. produção): Decida se você deseja (a) experimentar o Hush através da interface hospedada do Hugging Face para um teste rápido, ou (b) integrá-lo em sua própria pilha de IA de Voz para processamento de chamadas em tempo real.
3) Experimente o Hush no navegador (teste rápido): Na página do modelo Hugging Face, use a demonstração/widget disponível (se mostrado) para executar um exemplo e comparar a entrada ruidosa com a saída aprimorada.
4) Baixe os ativos do modelo para uso local: Nos arquivos do repositório Hugging Face, baixe o checkpoint e/ou o pacote de produção ONNX (o tarball ONNX no diretório onnx/) dependendo das suas necessidades de tempo de execução.
5) Use ONNX para implantação em tempo real na CPU: Para uso em produção sem PyTorch, use o pacote ONNX pré-construído para que o Hush possa ser executado totalmente na CPU em tempo real (o modelo é projetado para processar quadros de ~10 ms com computação sub-ms em CPUs típicas).
6) Integre em seu pipeline de áudio na 'frente': Coloque o Hush antes do ASR/transcrição ou do seu agente de voz para que o áudio da chamada seja aprimorado primeiro; isso melhora a inteligibilidade e reduz o ruído de fundo e a fala concorrente que chega aos componentes a jusante.
7) Alimente o áudio como um fluxo em tempo real: Execute o Hush continuamente em quadros de áudio ao vivo (por exemplo, blocos de 10 ms) para manter a latência baixa e manter o comportamento em tempo real para chamadas e sistemas conversacionais.
8) Valide em seus ambientes de destino: Teste com suas condições reais de chamada (cafés, ruas, ruído de escritório, falantes sobrepostos). Observe que o Hush é treinado com falantes em segundo plano em SIR moderado (cerca de 12–24 dB), então falantes concorrentes extremamente altos podem não ser totalmente suprimidos.
9) Entenda o que não usar como saída: Se você vir referências a um 'separation head' ou máscara de falante em segundo plano, trate-o como um regularizador auxiliar de tempo de treinamento (máscara suave de domínio ERB), não como uma saída de separação de fonte autônoma para produção.
10) Implante em seu SO de destino: Implante o tempo de execução da CPU onde você precisar (Linux, macOS incluindo Apple Silicon ou Windows) usando a abordagem ONNX para evitar dependências de produção pesadas.

Perguntas Frequentes do Hush

Hush é um modelo de aprimoramento de fala/supressão de ruído de código aberto construído para Voice AI que remove o ruído de fundo e suprime falantes de fundo concorrentes do áudio de chamadas do mundo real.

Ferramentas de IA Mais Recentes Semelhantes a Hush

EchoWave
EchoWave
EchoWave é uma plataforma online de edição de vídeo e áudio que permite aos criadores converter conteúdo de áudio em vídeos envolventes com visualizações de forma de onda, legendas e efeitos para compartilhamento em mídias sociais.
AIdeaflow Podcast
AIdeaflow Podcast
AIdeaflow Podcast é uma plataforma impulsionada por IA que transforma texto em conteúdo de podcast envolvente com conversas naturais em mais de 120 vozes e múltiplas línguas.
TranscribetoText.AI
TranscribetoText.AI
TranscribeToText.AI é um poderoso serviço de transcrição online que converte arquivos de áudio e vídeo em texto em mais de 120 idiomas com 99,9% de precisão, oferecendo acesso ilimitado à transcrição e opções de saída flexíveis.
Rift Podcast
Rift Podcast
O Rift Podcast é um aplicativo impulsionado por IA que transforma conteúdo da web em podcasts de áudio personalizados, oferecendo insights exclusivos curados de várias plataformas de tecnologia e entregues em apenas 15 minutos diários.