
Hush
Hush adalah model peningkatan ucapan open-source 8 MB, CPU-real-time yang menekan kebisingan latar belakang dan pembicara yang bersaing untuk panggilan Voice AI produksi dalam waktu kurang dari ~1 ms per frame 10 ms.
https://www.weya.ai/hush?ref=producthunt&utm_source=aipure

Informasi Produk
Diperbarui:Jun 24, 2026
Apa itu Hush
Hush adalah model penekan kebisingan dan peningkatan ucapan open-source internal weya AI yang dibangun khusus untuk sistem Voice AI produksi seperti agen telepon, bot pusat panggilan, asisten suara, dan pipeline transkripsi real-time. Tidak seperti banyak model peningkatan yang dioptimalkan terutama untuk tolok ukur kebisingan generik, Hush dirancang untuk panggilan dunia nyata di mana ucapan manusia yang tumpang tindih adalah titik kegagalan yang sering terjadi untuk ASR dan AI percakapan hilir. Ini ringan (~1.8M parameter, ~8 MB), berjalan sepenuhnya pada CPU secara real time, dan didistribusikan dengan artefak penerapan praktis (checkpoint PyTorch dan bundel produksi ONNX) di bawah lisensi Apache 2.0.
Fitur Utama Hush
Hush adalah model peningkatan ucapan/peredam bising real-time sumber terbuka dari weya AI yang dibuat khusus untuk produksi Voice AI. Model ini berjalan sepenuhnya di CPU dengan latensi yang sangat rendah (sekitar di bawah 1 ms pemrosesan per 10 ms bingkai audio), ringan (~8 MB, ~1,8 juta parameter), dan dilatih dengan 10.000+ jam audio bising campuran dengan penekanan kuat pada penekanan pembicara latar belakang yang bersaing (ucapan yang tumpang tindih) selain kebisingan ambien biasa. Model ini agnostik bahasa (beroperasi pada fitur akustik), kausal/ramah streaming, dan dapat diterapkan melalui bundel produksi ONNX atau binari mandiri yang sudah dibuat sebelumnya untuk OS umum, sehingga mudah diintegrasikan ke dalam pipeline suara.
Penekanan pembicara latar belakang: Dirancang untuk mengisolasi penelepon utama dan mengurangi suara manusia yang bersaing (mode kegagalan umum untuk agen suara dan ASR), bukan hanya kebisingan stasioner.
Kinerja CPU real-time: Memproses bingkai audio cukup cepat untuk panggilan langsung (dilaporkan di bawah ~1 ms per 10 ms audio) tanpa memerlukan GPU.
Jejak ringan: Ukuran model kecil (~8 MB; ~1,8 juta parameter) membuatnya praktis untuk penerapan di tempat dan di tepi dengan sumber daya terbatas.
Opsi penerapan berorientasi produksi: Dilengkapi dengan bundel produksi ONNX dan pustaka mandiri untuk integrasi langsung di C/C++/Python, dengan binari yang sudah dibuat sebelumnya untuk Linux, macOS (Apple Silicon), dan Windows.
Dilatih dengan data bising dunia nyata berskala besar: Dilatih dengan 10.000+ jam audio campuran; sebagian besar mencakup pembicara yang tumpang tindih pada tingkat SIR moderat, meningkatkan ketahanan dalam panggilan nyata.
Peningkatan agnostik bahasa: Berfungsi di berbagai bahasa karena meningkatkan kualitas sinyal akustik daripada mengandalkan konten linguistik.
Kasus Penggunaan Hush
Agen suara pusat panggilan & IVR: Membersihkan audio telepon yang bising dan menekan pembicaraan/TV latar belakang untuk meningkatkan pemahaman agen, mengurangi pengulangan, dan menstabilkan kinerja bot suara ujung ke ujung.
Pipeline transkripsi real-time: Meningkatkan akurasi ASR pada percakapan langsung atau rekaman dengan meningkatkan kejernihan ucapan dan mengurangi gangguan dari kebisingan dan pembicara yang tumpang tindih.
Orientasi pelanggan BFSI, penjualan, dan panggilan penagihan: Meningkatkan kejelasan dalam panggilan yang diatur dan berisiko tinggi (misalnya, KYC, percakapan pinjaman/penagihan) di mana lingkungan bising dan tumpang tindih pembicara sering terjadi.
Asisten suara di lingkungan bising: Membantu asisten berfungsi di kafe, jalanan, kantor, dan pengaturan dunia nyata lainnya dengan mengurangi kebisingan ambien dan berfokus pada pembicara utama.
Tinjauan panggilan kepatuhan dan QA: Meningkatkan audio panggilan yang direkam untuk audit yang lebih jelas, pemantauan kualitas, dan analitik hilir (ringkasan, deteksi maksud) dengan meningkatkan sinyal sumber.
Kelebihan
Sumber terbuka (Apache 2.0) dan dirancang untuk penerapan perusahaan/di tempat.
Operasi real-time, hanya CPU dengan latensi sangat rendah dan ukuran model kecil.
Fokus eksplisit pada penekanan pembicara latar belakang yang bersaing, titik nyeri Voice AI produksi yang umum.
Kekurangan
Dioptimalkan untuk audio streaming/panggilan 16 kHz; mungkin memerlukan pengambilan sampel ulang dan integrasi pipeline yang cermat untuk format lain.
Sebagai model peningkatan ucapan, model ini dapat memperkenalkan artefak atau menekan secara berlebihan dalam kondisi kebisingan/tumpang tindih ekstrem tergantung pada domain input.
Hasil terbaik mungkin bergantung pada integrasi streaming berbasis bingkai yang tepat (status sesi, ukuran bingkai) daripada pemrosesan batch offline sederhana.
Cara Menggunakan Hush
1) Buka halaman model Hush: Buka repositori Hugging Face resmi untuk model: https://huggingface.co/weya-ai/hush
2) Pilih jalur integrasi Anda (demo cepat vs. produksi): Putuskan apakah Anda ingin (a) mencoba Hush melalui antarmuka Hugging Face yang di-host untuk pengujian cepat, atau (b) mengintegrasikannya ke dalam tumpukan Voice AI Anda sendiri untuk pemrosesan panggilan real-time.
3) Coba Hush di browser (tes cepat): Di halaman model Hugging Face, gunakan demo/widget yang tersedia (jika ditampilkan) untuk menjalankan contoh dan membandingkan input bising vs. output yang ditingkatkan.
4) Unduh aset model untuk penggunaan lokal: Dari file repo Hugging Face, unduh checkpoint dan/atau bundel produksi ONNX (tarball ONNX di bawah direktori onnx/) tergantung pada kebutuhan runtime Anda.
5) Gunakan ONNX untuk penerapan real-time CPU: Untuk penggunaan produksi tanpa PyTorch, gunakan bundel ONNX yang sudah dibuat sebelumnya sehingga Hush dapat berjalan sepenuhnya pada CPU secara real time (model ini dirancang untuk memproses frame ~10 ms dengan komputasi sub-ms pada CPU tipikal).
6) Integrasikan ke dalam pipeline audio Anda di 'depan': Tempatkan Hush sebelum ASR/transkripsi atau agen suara Anda sehingga audio panggilan ditingkatkan terlebih dahulu; ini meningkatkan kejelasan dan mengurangi kebisingan latar belakang dan ucapan yang bersaing yang mencapai komponen hilir.
7) Umpankan audio sebagai aliran real-time: Jalankan Hush terus-menerus pada frame audio langsung (misalnya, potongan 10 ms) untuk menjaga latensi tetap rendah dan mempertahankan perilaku real-time untuk panggilan dan sistem percakapan.
8) Validasi di lingkungan target Anda: Uji dengan kondisi panggilan Anda yang sebenarnya (kafe, jalanan, kebisingan kantor, pembicara yang tumpang tindih). Perhatikan bahwa Hush dilatih dengan pembicara latar belakang pada SIR moderat (sekitar 12–24 dB), sehingga pembicara yang bersaing yang sangat keras mungkin tidak sepenuhnya ditekan.
9) Pahami apa yang tidak boleh digunakan sebagai output: Jika Anda melihat referensi ke 'separation head' atau masker pembicara latar belakang, perlakukan itu sebagai regularizer tambahan waktu pelatihan (masker lunak domain ERB), bukan output pemisahan sumber mandiri untuk produksi.
10) Terapkan pada OS target Anda: Terapkan runtime CPU di mana Anda membutuhkannya (Linux, macOS termasuk Apple Silicon, atau Windows) menggunakan pendekatan ONNX untuk menghindari dependensi produksi yang berat.
FAQ Hush
Hush adalah model peningkatan ucapan/penekanan kebisingan sumber terbuka yang dibangun untuk Voice AI yang menghilangkan kebisingan latar belakang dan menekan pembicara latar belakang yang bersaing dari audio panggilan dunia nyata.
Video Hush
Artikel Populer

Atoms: Platform AI Multi-Agen yang Mengubah Ide menjadi Produk Siap Diluncurkan
May 22, 2026

Nano Banana SBTI: Apa Itu, Bagaimana Cara Kerjanya, dan Cara Menggunakannya di Tahun 2026
Apr 15, 2026

Ulasan Atoms — Pembuat Produk AI yang Mendefinisikan Ulang Kreasi Digital di Tahun 2026
Apr 10, 2026

Kilo Claw: Cara Menerapkan dan Menggunakan Agen AI "Lakukan-Untuk-Anda" Sejati (Pembaruan 2026)
Apr 3, 2026







