
Hush
Hush è un modello di miglioramento del parlato open-source da 8 MB, in tempo reale su CPU, che sopprime il rumore di fondo e gli altoparlanti concorrenti per le chiamate Voice AI di produzione in meno di ~1 ms per frame di 10 ms.
https://www.weya.ai/hush?ref=producthunt&utm_source=aipure

Informazioni sul Prodotto
Aggiornato:Jun 24, 2026
Cos'è Hush
Hush è il modello open-source di soppressione del rumore e miglioramento del parlato di weya AI, sviluppato specificamente per sistemi Voice AI di produzione come agenti telefonici, bot di call center, assistenti vocali e pipeline di trascrizione in tempo reale. A differenza di molti modelli di miglioramento ottimizzati principalmente per benchmark di rumore generici, Hush è progettato per chiamate reali in cui il parlato umano sovrapposto è un frequente punto di fallimento per l'ASR e l'AI conversazionale a valle. È leggero (~1,8 milioni di parametri, ~8 MB), funziona interamente su CPU in tempo reale ed è distribuito con artefatti di implementazione pratici (checkpoint PyTorch e un bundle di produzione ONNX) sotto licenza Apache 2.0.
Caratteristiche principali di Hush
Hush è un modello open-source di miglioramento del parlato/soppressione del rumore in tempo reale di weya AI, costruito specificamente per la produzione di Voice AI. Funziona interamente su CPU con una latenza molto bassa (circa meno di 1 ms di elaborazione per ogni 10 ms di frame audio), è leggero (~8 MB, ~1.8M parametri) ed è addestrato su oltre 10.000 ore di audio rumoroso misto con una forte enfasi sulla soppressione di altoparlanti di sottofondo concorrenti (discorso sovrapposto) oltre al tipico rumore ambientale. È agnostico rispetto alla lingua (opera su caratteristiche acustiche), compatibile con lo streaming/causale e può essere distribuito tramite un bundle di produzione ONNX o binari standalone precompilati per i sistemi operativi più comuni, rendendolo facile da integrare nelle pipeline vocali.
Soppressione degli altoparlanti di sottofondo: Progettato per isolare il chiamante principale e ridurre le voci umane concorrenti (un comune modo di fallimento per gli agenti vocali e l'ASR), non solo il rumore stazionario.
Prestazioni CPU in tempo reale: Elabora i frame audio abbastanza velocemente per le chiamate in diretta (riportato sotto ~1 ms per 10 ms di audio) senza richiedere una GPU.
Ingombro leggero: Le dimensioni ridotte del modello (~8 MB; ~1.8M parametri) lo rendono pratico per implementazioni on-premise e edge con risorse limitate.
Opzioni di distribuzione orientate alla produzione: Viene fornito con un bundle di produzione ONNX e una libreria standalone per l'integrazione diretta in C/C++/Python, con binari precompilati per Linux, macOS (Apple Silicon) e Windows.
Addestrato su dati rumorosi del mondo reale su larga scala: Addestrato su oltre 10.000 ore di audio misto; una gran parte include altoparlanti sovrapposti a livelli SIR moderati, migliorando la robustezza nelle chiamate reali.
Miglioramento agnostico rispetto alla lingua: Funziona su tutte le lingue perché migliora la qualità del segnale acustico piuttosto che basarsi sul contenuto linguistico.
Casi d'uso di Hush
Agenti vocali di call center e IVR: Pulisce l'audio telefonico rumoroso e sopprime le conversazioni/TV di sottofondo per migliorare la comprensione dell'agente, ridurre le richieste di ripetizione e stabilizzare le prestazioni del bot vocale end-to-end.
Pipeline di trascrizione in tempo reale: Migliora la precisione dell'ASR su conversazioni dal vivo o registrate migliorando la chiarezza del parlato e riducendo le interferenze da rumore e altoparlanti sovrapposti.
Onboarding clienti BFSI, vendite e chiamate di recupero crediti: Aumenta l'intelligibilità nelle chiamate regolamentate e ad alto rischio (ad esempio, KYC, conversazioni su prestiti/recupero crediti) dove ambienti rumorosi e sovrapposizioni di altoparlanti sono comuni.
Assistenti vocali in ambienti rumorosi: Aiuta gli assistenti a funzionare in caffè, strade, uffici e altri contesti del mondo reale riducendo il rumore ambientale e concentrandosi sull'altoparlante principale.
Revisione delle chiamate per conformità e QA: Migliora l'audio delle chiamate registrate per audit più chiari, monitoraggio della qualità e analisi a valle (riassunto, rilevamento dell'intento) migliorando il segnale sorgente.
Vantaggi
Open-source (Apache 2.0) e progettato per l'implementazione aziendale/on-premise.
Funzionamento in tempo reale, solo CPU con latenza molto bassa e dimensioni ridotte del modello.
Focalizzazione esplicita sulla soppressione degli altoparlanti di sottofondo concorrenti, un comune punto dolente della produzione di Voice AI.
Svantaggi
Ottimizzato per audio streaming/chiamate a 16 kHz; potrebbe richiedere il ricampionamento e un'attenta integrazione della pipeline per altri formati.
Come modello di miglioramento del parlato, può introdurre artefatti o sopprimere eccessivamente in condizioni estreme di rumore/sovrapposizione a seconda del dominio di input.
I migliori risultati possono dipendere da una corretta integrazione dello streaming basato su frame (stato della sessione, dimensionamento dei frame) piuttosto che da una semplice elaborazione batch offline.
Come usare Hush
1) Apri la pagina del modello Hush: Vai al repository ufficiale di Hugging Face per il modello: https://huggingface.co/weya-ai/hush
2) Scegli il tuo percorso di integrazione (demo rapida vs. produzione): Decidi se vuoi (a) provare Hush tramite l'interfaccia ospitata di Hugging Face per un test rapido, o (b) integrarlo nel tuo stack Voice AI per l'elaborazione delle chiamate in tempo reale.
3) Prova Hush nel browser (test rapido): Sulla pagina del modello Hugging Face, usa la demo/widget disponibile (se mostrata) per eseguire un esempio e confrontare l'input rumoroso con l'output migliorato.
4) Scarica gli asset del modello per l'uso locale: Dai file del repository Hugging Face, scarica il checkpoint e/o il bundle di produzione ONNX (il tarball ONNX nella directory onnx/) a seconda delle tue esigenze di runtime.
5) Usa ONNX per l'implementazione in tempo reale su CPU: Per l'uso in produzione senza PyTorch, usa il bundle ONNX precompilato in modo che Hush possa funzionare interamente su CPU in tempo reale (il modello è progettato per elaborare frame di ~10 ms con calcolo sub-ms su CPU tipiche).
6) Integra nella tua pipeline audio 'a monte': Posiziona Hush prima dell'ASR/trascrizione o del tuo agente vocale in modo che l'audio della chiamata venga prima migliorato; questo migliora l'intelligibilità e riduce il rumore di fondo e il parlato concorrente che raggiungono i componenti a valle.
7) Alimenta l'audio come un flusso in tempo reale: Esegui Hush continuamente su frame audio live (ad esempio, blocchi di 10 ms) per mantenere bassa la latenza e mantenere il comportamento in tempo reale per chiamate e sistemi conversazionali.
8) Convalida sui tuoi ambienti target: Testa con le tue condizioni di chiamata reali (caffè, strade, rumore d'ufficio, altoparlanti sovrapposti). Nota che Hush è addestrato con altoparlanti di sottofondo a SIR moderato (circa 12–24 dB), quindi altoparlanti concorrenti estremamente rumorosi potrebbero non essere completamente soppressi.
9) Comprendi cosa non usare come output: Se vedi riferimenti a una 'testa di separazione' o a una maschera per altoparlanti di sottofondo, trattala come un regolarizzatore ausiliario ausiliario (maschera soft nel dominio ERB) in fase di addestramento, non come un output di separazione della sorgente autonomo per la produzione.
10) Distribuisci sul tuo sistema operativo di destinazione: Distribuisci il runtime della CPU dove ne hai bisogno (Linux, macOS inclusi Apple Silicon, o Windows) utilizzando l'approccio ONNX per evitare dipendenze di produzione pesanti.
FAQ di Hush
Hush è un modello open-source di miglioramento del parlato/soppressione del rumore, creato per l'IA vocale, che rimuove il rumore di fondo e sopprime gli altoparlanti di fondo concorrenti dall'audio delle chiamate nel mondo reale.
Video di Hush
Articoli Popolari

Atoms: Una Piattaforma AI Multi-Agente Che Trasforma le Idee in Prodotti Pronti al Lancio
May 22, 2026

Nano Banana SBTI: Cos'è, come funziona e come usarlo nel 2026
Apr 15, 2026

Recensione di Atoms — Il builder di prodotti AI che ridefinisce la creazione digitale nel 2026
Apr 10, 2026

Kilo Claw: Come Distribuire e Utilizzare un Vero Agente AI "Fai-da-Te" (Aggiornamento 2026)
Apr 3, 2026







