Hush

Hush

WebsiteFreemiumVoice & Audio Editing
Hush adalah model peningkatan ucapan open-source 8 MB, CPU-real-time yang menekan kebisingan latar belakang dan pembicara yang bersaing untuk panggilan Voice AI produksi dalam waktu kurang dari ~1 ms per frame 10 ms.
https://www.weya.ai/hush?ref=producthunt&utm_source=aipure
Hush

Informasi Produk

Diperbarui:Jun 24, 2026

Apa itu Hush

Hush adalah model penekan kebisingan dan peningkatan ucapan open-source internal weya AI yang dibangun khusus untuk sistem Voice AI produksi seperti agen telepon, bot pusat panggilan, asisten suara, dan pipeline transkripsi real-time. Tidak seperti banyak model peningkatan yang dioptimalkan terutama untuk tolok ukur kebisingan generik, Hush dirancang untuk panggilan dunia nyata di mana ucapan manusia yang tumpang tindih adalah titik kegagalan yang sering terjadi untuk ASR dan AI percakapan hilir. Ini ringan (~1.8M parameter, ~8 MB), berjalan sepenuhnya pada CPU secara real time, dan didistribusikan dengan artefak penerapan praktis (checkpoint PyTorch dan bundel produksi ONNX) di bawah lisensi Apache 2.0.

Fitur Utama Hush

Hush adalah model peningkatan ucapan/peredam bising real-time sumber terbuka dari weya AI yang dibuat khusus untuk produksi Voice AI. Model ini berjalan sepenuhnya di CPU dengan latensi yang sangat rendah (sekitar di bawah 1 ms pemrosesan per 10 ms bingkai audio), ringan (~8 MB, ~1,8 juta parameter), dan dilatih dengan 10.000+ jam audio bising campuran dengan penekanan kuat pada penekanan pembicara latar belakang yang bersaing (ucapan yang tumpang tindih) selain kebisingan ambien biasa. Model ini agnostik bahasa (beroperasi pada fitur akustik), kausal/ramah streaming, dan dapat diterapkan melalui bundel produksi ONNX atau binari mandiri yang sudah dibuat sebelumnya untuk OS umum, sehingga mudah diintegrasikan ke dalam pipeline suara.
Penekanan pembicara latar belakang: Dirancang untuk mengisolasi penelepon utama dan mengurangi suara manusia yang bersaing (mode kegagalan umum untuk agen suara dan ASR), bukan hanya kebisingan stasioner.
Kinerja CPU real-time: Memproses bingkai audio cukup cepat untuk panggilan langsung (dilaporkan di bawah ~1 ms per 10 ms audio) tanpa memerlukan GPU.
Jejak ringan: Ukuran model kecil (~8 MB; ~1,8 juta parameter) membuatnya praktis untuk penerapan di tempat dan di tepi dengan sumber daya terbatas.
Opsi penerapan berorientasi produksi: Dilengkapi dengan bundel produksi ONNX dan pustaka mandiri untuk integrasi langsung di C/C++/Python, dengan binari yang sudah dibuat sebelumnya untuk Linux, macOS (Apple Silicon), dan Windows.
Dilatih dengan data bising dunia nyata berskala besar: Dilatih dengan 10.000+ jam audio campuran; sebagian besar mencakup pembicara yang tumpang tindih pada tingkat SIR moderat, meningkatkan ketahanan dalam panggilan nyata.
Peningkatan agnostik bahasa: Berfungsi di berbagai bahasa karena meningkatkan kualitas sinyal akustik daripada mengandalkan konten linguistik.

Kasus Penggunaan Hush

Agen suara pusat panggilan & IVR: Membersihkan audio telepon yang bising dan menekan pembicaraan/TV latar belakang untuk meningkatkan pemahaman agen, mengurangi pengulangan, dan menstabilkan kinerja bot suara ujung ke ujung.
Pipeline transkripsi real-time: Meningkatkan akurasi ASR pada percakapan langsung atau rekaman dengan meningkatkan kejernihan ucapan dan mengurangi gangguan dari kebisingan dan pembicara yang tumpang tindih.
Orientasi pelanggan BFSI, penjualan, dan panggilan penagihan: Meningkatkan kejelasan dalam panggilan yang diatur dan berisiko tinggi (misalnya, KYC, percakapan pinjaman/penagihan) di mana lingkungan bising dan tumpang tindih pembicara sering terjadi.
Asisten suara di lingkungan bising: Membantu asisten berfungsi di kafe, jalanan, kantor, dan pengaturan dunia nyata lainnya dengan mengurangi kebisingan ambien dan berfokus pada pembicara utama.
Tinjauan panggilan kepatuhan dan QA: Meningkatkan audio panggilan yang direkam untuk audit yang lebih jelas, pemantauan kualitas, dan analitik hilir (ringkasan, deteksi maksud) dengan meningkatkan sinyal sumber.

Kelebihan

Sumber terbuka (Apache 2.0) dan dirancang untuk penerapan perusahaan/di tempat.
Operasi real-time, hanya CPU dengan latensi sangat rendah dan ukuran model kecil.
Fokus eksplisit pada penekanan pembicara latar belakang yang bersaing, titik nyeri Voice AI produksi yang umum.

Kekurangan

Dioptimalkan untuk audio streaming/panggilan 16 kHz; mungkin memerlukan pengambilan sampel ulang dan integrasi pipeline yang cermat untuk format lain.
Sebagai model peningkatan ucapan, model ini dapat memperkenalkan artefak atau menekan secara berlebihan dalam kondisi kebisingan/tumpang tindih ekstrem tergantung pada domain input.
Hasil terbaik mungkin bergantung pada integrasi streaming berbasis bingkai yang tepat (status sesi, ukuran bingkai) daripada pemrosesan batch offline sederhana.

Cara Menggunakan Hush

1) Buka halaman model Hush: Buka repositori Hugging Face resmi untuk model: https://huggingface.co/weya-ai/hush
2) Pilih jalur integrasi Anda (demo cepat vs. produksi): Putuskan apakah Anda ingin (a) mencoba Hush melalui antarmuka Hugging Face yang di-host untuk pengujian cepat, atau (b) mengintegrasikannya ke dalam tumpukan Voice AI Anda sendiri untuk pemrosesan panggilan real-time.
3) Coba Hush di browser (tes cepat): Di halaman model Hugging Face, gunakan demo/widget yang tersedia (jika ditampilkan) untuk menjalankan contoh dan membandingkan input bising vs. output yang ditingkatkan.
4) Unduh aset model untuk penggunaan lokal: Dari file repo Hugging Face, unduh checkpoint dan/atau bundel produksi ONNX (tarball ONNX di bawah direktori onnx/) tergantung pada kebutuhan runtime Anda.
5) Gunakan ONNX untuk penerapan real-time CPU: Untuk penggunaan produksi tanpa PyTorch, gunakan bundel ONNX yang sudah dibuat sebelumnya sehingga Hush dapat berjalan sepenuhnya pada CPU secara real time (model ini dirancang untuk memproses frame ~10 ms dengan komputasi sub-ms pada CPU tipikal).
6) Integrasikan ke dalam pipeline audio Anda di 'depan': Tempatkan Hush sebelum ASR/transkripsi atau agen suara Anda sehingga audio panggilan ditingkatkan terlebih dahulu; ini meningkatkan kejelasan dan mengurangi kebisingan latar belakang dan ucapan yang bersaing yang mencapai komponen hilir.
7) Umpankan audio sebagai aliran real-time: Jalankan Hush terus-menerus pada frame audio langsung (misalnya, potongan 10 ms) untuk menjaga latensi tetap rendah dan mempertahankan perilaku real-time untuk panggilan dan sistem percakapan.
8) Validasi di lingkungan target Anda: Uji dengan kondisi panggilan Anda yang sebenarnya (kafe, jalanan, kebisingan kantor, pembicara yang tumpang tindih). Perhatikan bahwa Hush dilatih dengan pembicara latar belakang pada SIR moderat (sekitar 12–24 dB), sehingga pembicara yang bersaing yang sangat keras mungkin tidak sepenuhnya ditekan.
9) Pahami apa yang tidak boleh digunakan sebagai output: Jika Anda melihat referensi ke 'separation head' atau masker pembicara latar belakang, perlakukan itu sebagai regularizer tambahan waktu pelatihan (masker lunak domain ERB), bukan output pemisahan sumber mandiri untuk produksi.
10) Terapkan pada OS target Anda: Terapkan runtime CPU di mana Anda membutuhkannya (Linux, macOS termasuk Apple Silicon, atau Windows) menggunakan pendekatan ONNX untuk menghindari dependensi produksi yang berat.

FAQ Hush

Hush adalah model peningkatan ucapan/penekanan kebisingan sumber terbuka yang dibangun untuk Voice AI yang menghilangkan kebisingan latar belakang dan menekan pembicara latar belakang yang bersaing dari audio panggilan dunia nyata.

Alat AI Terbaru Serupa dengan Hush

EchoWave
EchoWave
EchoWave adalah platform pengeditan video dan audio online yang memungkinkan pembuat untuk mengubah konten audio menjadi video yang menarik dengan visualisasi bentuk gelombang, subtitle, dan efek untuk dibagikan di media sosial.
AIdeaflow Podcast
AIdeaflow Podcast
AIdeaflow Podcast adalah platform bertenaga AI yang mengubah teks menjadi konten podcast yang menarik dengan percakapan alami di lebih dari 120 suara dan berbagai bahasa.
TranscribetoText.AI
TranscribetoText.AI
TranscribeToText.AI adalah layanan transkripsi online yang kuat yang mengonversi file audio dan video menjadi teks dalam lebih dari 120 bahasa dengan akurasi 99,9%, menawarkan akses transkripsi tanpa batas dan opsi output yang fleksibel.
Rift Podcast
Rift Podcast
Rift Podcast adalah aplikasi bertenaga AI yang mengubah konten web menjadi podcast audio yang dipersonalisasi, menawarkan wawasan eksklusif yang dikurasi dari berbagai platform teknologi dan disampaikan dalam hanya 15 menit setiap hari.