Que problema o Hush resolve para os sistemas de Voice AI?

Hush melhora a qualidade do áudio de chamadas ao vivo para que os sistemas a jusante (ASR, agentes de voz, bots de call center, pipelines de transcrição) possam entender o falante principal de forma mais confiável, especialmente em ambientes ruidosos e com vozes sobrepostas.

O Hush funciona em tempo real e precisa de uma GPU?

Sim—Hush foi projetado para rodar totalmente na CPU em tempo real (tipicamente abaixo de ~1 ms de processamento por quadro de áudio de 10 ms) e não requer uma GPU.

Qual o tamanho do modelo Hush?

O modelo tem aproximadamente 8 MB.

Quais características dos dados de treinamento são mencionadas para o Hush?

Hush foi treinado em mais de 10.000 horas de áudio ruidoso misto, com vozes humanas concorrentes presentes em cerca de 60% do conjunto de dados em relações sinal-interferência (SIR) de 12–24 dB.

Em que arquitetura o Hush é baseado?

Hush é construído na arquitetura DeepFilterNet3 e inclui um aprimoramento com um Auxiliary Separation Head para suprimir melhor os falantes de fundo.

Como o Hush pode ser implantado em produção?

Hush pode ser implantado via ONNX (um pacote de produção ONNX pré-construído é fornecido), permitindo a implantação apenas em CPU em Linux, macOS (Apple Silicon) e Windows; o repositório também faz referência a uma biblioteca Weya NC Standalone pré-construída para implantação em produção sem PyTorch.

O Hush é de código aberto e qual licença ele usa?

Sim. Os pesos do modelo e o código-fonte estão disponíveis publicamente (por exemplo, no Hugging Face e GitHub) sob a licença Apache 2.0.

Como o Hush se saiu nos benchmarks públicos no lançamento?

No lançamento, Hush ficou em 5º lugar no ranking Audio-to-Audio do Hugging Face, colocando-o entre os principais modelos de código aberto em sua categoria.

Hush

WebsiteFreemiumVoice & Audio Editing

Hush é um modelo de aprimoramento de fala de código aberto de 8 MB, em tempo real na CPU, que suprime ruído de fundo e falantes concorrentes para chamadas de IA de Voz de produção em menos de ~1 ms por quadro de 10 ms.

Visitar Site

Anunciar Esta Ferramenta

https://www.weya.ai/hush?ref=producthunt&utm_source=aipure

Visão Geral
Vídeo
Alternativas

Informações do Produto

Atualizado:Jul 8, 2026

O que é Hush

Hush é o modelo de supressão de ruído e aprimoramento de fala de código aberto interno da weya AI, construído especificamente para sistemas de IA de Voz de produção, como agentes telefônicos, bots de call center, assistentes de voz e pipelines de transcrição em tempo real. Ao contrário de muitos modelos de aprimoramento otimizados principalmente para benchmarks de ruído genéricos, o Hush é projetado para chamadas do mundo real, onde a fala humana sobreposta é um ponto de falha frequente para ASR e IA conversacional a jusante. É leve (~1.8M parâmetros, ~8 MB), executa totalmente na CPU em tempo real e é distribuído com artefatos de implantação práticos (checkpoint PyTorch e um pacote de produção ONNX) sob a licença Apache 2.0.

Principais Recursos do Hush

Hush é um modelo de aprimoramento de fala/supressão de ruído em tempo real de código aberto da weya AI, desenvolvido especificamente para produção de Voz AI. Ele funciona totalmente na CPU com latência muito baixa (cerca de menos de 1 ms de processamento por quadro de áudio de 10 ms), é leve (~8 MB, ~1,8M parâmetros) e é treinado em mais de 10.000 horas de áudio ruidoso misto com forte ênfase na supressão de falantes de fundo concorrentes (fala sobreposta), além do ruído ambiente típico. É agnóstico em relação ao idioma (opera em recursos acústicos), compatível com causal/streaming e pode ser implantado por meio de um pacote de produção ONNX ou binários autônomos pré-construídos para sistemas operacionais comuns, facilitando a integração em pipelines de voz.

Supressão de falantes de fundo: Projetado para isolar o chamador principal e reduzir vozes humanas concorrentes (um modo de falha comum para agentes de voz e ASR), não apenas ruído estacionário.

Desempenho da CPU em tempo real: Processa quadros de áudio rápido o suficiente para chamadas ao vivo (relatado em menos de ~1 ms por 10 ms de áudio) sem exigir uma GPU.

Pegada leve: O pequeno tamanho do modelo (~8 MB; ~1,8M parâmetros) o torna prático para implantações locais e de borda com recursos limitados.

Opções de implantação orientadas para produção: Vem com um pacote de produção ONNX e uma biblioteca autônoma para integração direta em C/C++/Python, com binários pré-construídos para Linux, macOS (Apple Silicon) e Windows.

Treinado em dados ruidosos do mundo real em larga escala: Treinado em mais de 10.000 horas de áudio misto; uma grande parte inclui falantes sobrepostos em níveis SIR moderados, melhorando a robustez em chamadas reais.

Aprimoramento agnóstico em relação ao idioma: Funciona em vários idiomas porque aprimora a qualidade do sinal acústico em vez de depender do conteúdo linguístico.

Casos de Uso do Hush

Agentes de voz de call center e URA: Limpa o áudio ruidoso do telefone e suprime conversas/TV de fundo para melhorar a compreensão do agente, reduzir repetições e estabilizar o desempenho do bot de voz de ponta a ponta.

Pipelines de transcrição em tempo real: Melhora a precisão do ASR em conversas ao vivo ou gravadas, aprimorando a clareza da fala e reduzindo a interferência de ruído e falantes sobrepostos.

Onboarding de clientes BFSI, vendas e chamadas de cobrança: Aumenta a inteligibilidade em chamadas regulamentadas e de alto risco (por exemplo, KYC, conversas de empréstimo/cobrança) onde ambientes ruidosos e sobreposição de falantes são comuns.

Assistentes de voz em ambientes ruidosos: Ajuda os assistentes a funcionar em cafés, ruas, escritórios e outros ambientes do mundo real, reduzindo o ruído ambiente e focando no falante principal.

Revisão de chamadas de conformidade e controle de qualidade: Aprimora o áudio de chamadas gravadas para auditorias mais claras, monitoramento de qualidade e análises posteriores (resumo, detecção de intenção), melhorando o sinal de origem.

Vantagens

Código aberto (Apache 2.0) e projetado para implantação empresarial/local.

Operação em tempo real, apenas CPU, com latência muito baixa e tamanho de modelo pequeno.

Foco explícito na supressão de falantes de fundo concorrentes, um problema comum na produção de Voz AI.

Desvantagens

Otimizado para áudio de streaming/chamada de 16 kHz; pode exigir reamostragem e integração cuidadosa do pipeline para outros formatos.

Como um modelo de aprimoramento de fala, pode introduzir artefatos ou suprimir excessivamente em condições extremas de ruído/sobreposição, dependendo do domínio de entrada.

Os melhores resultados podem depender de uma integração de streaming baseada em quadros adequada (estado da sessão, dimensionamento de quadros) em vez de um simples processamento em lote offline.

Como Usar o Hush

1) Abra a página do modelo Hush: Vá para o repositório oficial do Hugging Face para o modelo: https://huggingface.co/weya-ai/hush

2) Escolha seu caminho de integração (demonstração rápida vs. produção): Decida se você deseja (a) experimentar o Hush através da interface hospedada do Hugging Face para um teste rápido, ou (b) integrá-lo em sua própria pilha de IA de Voz para processamento de chamadas em tempo real.

3) Experimente o Hush no navegador (teste rápido): Na página do modelo Hugging Face, use a demonstração/widget disponível (se mostrado) para executar um exemplo e comparar a entrada ruidosa com a saída aprimorada.

4) Baixe os ativos do modelo para uso local: Nos arquivos do repositório Hugging Face, baixe o checkpoint e/ou o pacote de produção ONNX (o tarball ONNX no diretório onnx/) dependendo das suas necessidades de tempo de execução.

5) Use ONNX para implantação em tempo real na CPU: Para uso em produção sem PyTorch, use o pacote ONNX pré-construído para que o Hush possa ser executado totalmente na CPU em tempo real (o modelo é projetado para processar quadros de ~10 ms com computação sub-ms em CPUs típicas).

6) Integre em seu pipeline de áudio na 'frente': Coloque o Hush antes do ASR/transcrição ou do seu agente de voz para que o áudio da chamada seja aprimorado primeiro; isso melhora a inteligibilidade e reduz o ruído de fundo e a fala concorrente que chega aos componentes a jusante.

7) Alimente o áudio como um fluxo em tempo real: Execute o Hush continuamente em quadros de áudio ao vivo (por exemplo, blocos de 10 ms) para manter a latência baixa e manter o comportamento em tempo real para chamadas e sistemas conversacionais.

8) Valide em seus ambientes de destino: Teste com suas condições reais de chamada (cafés, ruas, ruído de escritório, falantes sobrepostos). Observe que o Hush é treinado com falantes em segundo plano em SIR moderado (cerca de 12–24 dB), então falantes concorrentes extremamente altos podem não ser totalmente suprimidos.

9) Entenda o que não usar como saída: Se você vir referências a um 'separation head' ou máscara de falante em segundo plano, trate-o como um regularizador auxiliar de tempo de treinamento (máscara suave de domínio ERB), não como uma saída de separação de fonte autônoma para produção.

10) Implante em seu SO de destino: Implante o tempo de execução da CPU onde você precisar (Linux, macOS incluindo Apple Silicon ou Windows) usando a abordagem ONNX para evitar dependências de produção pesadas.

Perguntas Frequentes do Hush

Hush é um modelo de aprimoramento de fala/supressão de ruído de código aberto construído para Voice AI que remove o ruído de fundo e suprime falantes de fundo concorrentes do áudio de chamadas do mundo real.

Vídeo do Hush

Artigos Populares

Atoms: Uma Plataforma de IA Multiagente Que Transforma Ideias em Produtos Prontos para Lançamento

May 22, 2026

Nano Banana SBTI: O Que É, Como Funciona e Como Usá-lo em 2026

Apr 15, 2026

Análise do Atoms — O Construtor de Produtos de IA Redefinindo a Criação Digital em 2026

Apr 10, 2026

Kilo Claw: Como Implementar e Usar um Verdadeiro Agente de IA "Faça Você Mesmo" (Atualização de 2026)

Apr 3, 2026

Ferramentas de IA Mais Recentes Semelhantes a Hush

EchoWave

FreemiumAI Video Editing Voice & Audio Editing AI Social Media Assistant

EchoWave é uma plataforma online de edição de vídeo e áudio que permite aos criadores converter conteúdo de áudio em vídeos envolventes com visualizações de forma de onda, legendas e efeitos para compartilhamento em mídias sociais.

AIdeaflow Podcast

FreeAI Podcast Assistant Text to Speech Voice & Audio Editing

AIdeaflow Podcast é uma plataforma impulsionada por IA que transforma texto em conteúdo de podcast envolvente com conversas naturais em mais de 120 vozes e múltiplas línguas.

TranscribetoText.AI

FreemiumTranscription AI Speech Recognition Voice & Audio Editing

TranscribeToText.AI é um poderoso serviço de transcrição online que converte arquivos de áudio e vídeo em texto em mais de 120 idiomas com 99,9% de precisão, oferecendo acesso ilimitado à transcrição e opções de saída flexíveis.

Rift Podcast

Free TrialAI Podcast Assistant Text to Speech Voice & Audio Editing

O Rift Podcast é um aplicativo impulsionado por IA que transforma conteúdo da web em podcasts de áudio personalizados, oferecendo insights exclusivos curados de várias plataformas de tecnologia e entregues em apenas 15 minutos diários.

Ferramentas de IA Populares Como Hush

W-Okada Voice Changer

FreemiumAI Voice Changer Voice & Audio Editing AI Voice Chat Generator

O W-Okada Voice Changer é um software de conversão de voz em tempo real de código aberto que usa IA para transformar vozes com alta qualidade e baixa latência.

FnKey

FreeText to Speech Voice & Audio Editing

FnKey é um aplicativo leve da barra de menu do macOS que permite a transcrição rápida de voz para texto, mantendo pressionada a tecla Fn para falar e cola automaticamente o texto transcrito quando liberado.

Background noise removal

FreeAI Noise Cancellation Voice & Audio Editing

Uma poderosa extensão do Chrome que usa tecnologia avançada de IA para remover ruídos de fundo indesejados de arquivos de áudio e vídeo, oferecendo cancelamento de ruído em tempo real para qualidade de som cristalina.

Audio player for ChatGPT

FreeText to Speech Voice & Audio Editing

Uma extensão do Chrome que aprimora o recurso de Leitura em Voz Alta do ChatGPT, adicionando um reprodutor de áudio amigável com controles básicos como reprodução/pausa, barra de busca e exibição de duração.

Classificação

Enviar & PromoverNew

Hush

Informações do Produto

O que é Hush

Principais Recursos do Hush

Casos de Uso do Hush

Vantagens

Desvantagens

Como Usar o Hush

Perguntas Frequentes do Hush

1. O que é Hush da weya AI?

2. Que problema o Hush resolve para os sistemas de Voice AI?

3. O Hush funciona em tempo real e precisa de uma GPU?

4. Qual o tamanho do modelo Hush?

5. Quais características dos dados de treinamento são mencionadas para o Hush?

6. Em que arquitetura o Hush é baseado?

7. Como o Hush pode ser implantado em produção?

8. O Hush é de código aberto e qual licença ele usa?

9. Como o Hush se saiu nos benchmarks públicos no lançamento?

Vídeo do Hush

Artigos Populares

Ferramentas de IA Mais Recentes Semelhantes a Hush

Ferramentas de IA Populares Como Hush