Masalah apa yang dipecahkan Hush untuk sistem Voice AI?

Hush meningkatkan kualitas audio panggilan langsung sehingga sistem hilir (ASR, agen suara, bot pusat panggilan, jalur transkripsi) dapat memahami pembicara utama dengan lebih andal, terutama di lingkungan yang bising dan dengan suara yang tumpang tindih.

Apakah Hush berjalan secara real time, dan apakah itu memerlukan GPU?

Ya—Hush dirancang untuk berjalan sepenuhnya pada CPU secara real time (biasanya di bawah ~1 ms pemrosesan per 10 ms bingkai audio) dan tidak memerlukan GPU.

Seberapa besar model Hush?

Model ini berukuran sekitar 8 MB.

Karakteristik data pelatihan apa yang disebutkan untuk Hush?

Hush dilatih selama 10.000+ jam audio bising campuran, dengan suara manusia yang bersaing hadir di sekitar 60% dari dataset pada rasio sinyal-ke-interferensi (SIR) 12–24 dB.

Arsitektur apa yang menjadi dasar Hush?

Hush dibangun di atas arsitektur DeepFilterNet3 dan mencakup peningkatan dengan Auxiliary Separation Head untuk menekan pembicara latar belakang dengan lebih baik.

Bagaimana Hush dapat diterapkan dalam produksi?

Hush dapat diterapkan melalui ONNX (bundel produksi ONNX yang sudah dibuat sebelumnya disediakan), memungkinkan penerapan hanya-CPU di Linux, macOS (Apple Silicon), dan Windows; repositori juga merujuk perpustakaan Weya NC Standalone yang sudah dibuat sebelumnya untuk penerapan produksi tanpa PyTorch.

Apakah Hush sumber terbuka, dan lisensi apa yang digunakannya?

Ya. Bobot model dan kode sumber tersedia secara publik (misalnya, di Hugging Face dan GitHub) di bawah lisensi Apache 2.0.

Bagaimana kinerja Hush pada tolok ukur publik saat peluncuran?

Pada saat peluncuran, Hush menempati peringkat #5 di papan peringkat Audio-to-Audio Hugging Face, menempatkannya di antara model sumber terbuka teratas dalam kategorinya.

Hush

WebsiteFreemiumVoice & Audio Editing

Hush adalah model peningkatan ucapan open-source 8 MB, CPU-real-time yang menekan kebisingan latar belakang dan pembicara yang bersaing untuk panggilan Voice AI produksi dalam waktu kurang dari ~1 ms per frame 10 ms.

Kunjungi Situs Web

Iklankan Alat Ini

https://www.weya.ai/hush?ref=producthunt&utm_source=aipure

Ikhtisar
Video
Alternatif

Informasi Produk

Diperbarui:Jul 8, 2026

Apa itu Hush

Hush adalah model penekan kebisingan dan peningkatan ucapan open-source internal weya AI yang dibangun khusus untuk sistem Voice AI produksi seperti agen telepon, bot pusat panggilan, asisten suara, dan pipeline transkripsi real-time. Tidak seperti banyak model peningkatan yang dioptimalkan terutama untuk tolok ukur kebisingan generik, Hush dirancang untuk panggilan dunia nyata di mana ucapan manusia yang tumpang tindih adalah titik kegagalan yang sering terjadi untuk ASR dan AI percakapan hilir. Ini ringan (~1.8M parameter, ~8 MB), berjalan sepenuhnya pada CPU secara real time, dan didistribusikan dengan artefak penerapan praktis (checkpoint PyTorch dan bundel produksi ONNX) di bawah lisensi Apache 2.0.

Fitur Utama Hush

Hush adalah model peningkatan ucapan/peredam bising real-time sumber terbuka dari weya AI yang dibuat khusus untuk produksi Voice AI. Model ini berjalan sepenuhnya di CPU dengan latensi yang sangat rendah (sekitar di bawah 1 ms pemrosesan per 10 ms bingkai audio), ringan (~8 MB, ~1,8 juta parameter), dan dilatih dengan 10.000+ jam audio bising campuran dengan penekanan kuat pada penekanan pembicara latar belakang yang bersaing (ucapan yang tumpang tindih) selain kebisingan ambien biasa. Model ini agnostik bahasa (beroperasi pada fitur akustik), kausal/ramah streaming, dan dapat diterapkan melalui bundel produksi ONNX atau binari mandiri yang sudah dibuat sebelumnya untuk OS umum, sehingga mudah diintegrasikan ke dalam pipeline suara.

Penekanan pembicara latar belakang: Dirancang untuk mengisolasi penelepon utama dan mengurangi suara manusia yang bersaing (mode kegagalan umum untuk agen suara dan ASR), bukan hanya kebisingan stasioner.

Kinerja CPU real-time: Memproses bingkai audio cukup cepat untuk panggilan langsung (dilaporkan di bawah ~1 ms per 10 ms audio) tanpa memerlukan GPU.

Jejak ringan: Ukuran model kecil (~8 MB; ~1,8 juta parameter) membuatnya praktis untuk penerapan di tempat dan di tepi dengan sumber daya terbatas.

Opsi penerapan berorientasi produksi: Dilengkapi dengan bundel produksi ONNX dan pustaka mandiri untuk integrasi langsung di C/C++/Python, dengan binari yang sudah dibuat sebelumnya untuk Linux, macOS (Apple Silicon), dan Windows.

Dilatih dengan data bising dunia nyata berskala besar: Dilatih dengan 10.000+ jam audio campuran; sebagian besar mencakup pembicara yang tumpang tindih pada tingkat SIR moderat, meningkatkan ketahanan dalam panggilan nyata.

Peningkatan agnostik bahasa: Berfungsi di berbagai bahasa karena meningkatkan kualitas sinyal akustik daripada mengandalkan konten linguistik.

Kasus Penggunaan Hush

Agen suara pusat panggilan & IVR: Membersihkan audio telepon yang bising dan menekan pembicaraan/TV latar belakang untuk meningkatkan pemahaman agen, mengurangi pengulangan, dan menstabilkan kinerja bot suara ujung ke ujung.

Pipeline transkripsi real-time: Meningkatkan akurasi ASR pada percakapan langsung atau rekaman dengan meningkatkan kejernihan ucapan dan mengurangi gangguan dari kebisingan dan pembicara yang tumpang tindih.

Orientasi pelanggan BFSI, penjualan, dan panggilan penagihan: Meningkatkan kejelasan dalam panggilan yang diatur dan berisiko tinggi (misalnya, KYC, percakapan pinjaman/penagihan) di mana lingkungan bising dan tumpang tindih pembicara sering terjadi.

Asisten suara di lingkungan bising: Membantu asisten berfungsi di kafe, jalanan, kantor, dan pengaturan dunia nyata lainnya dengan mengurangi kebisingan ambien dan berfokus pada pembicara utama.

Tinjauan panggilan kepatuhan dan QA: Meningkatkan audio panggilan yang direkam untuk audit yang lebih jelas, pemantauan kualitas, dan analitik hilir (ringkasan, deteksi maksud) dengan meningkatkan sinyal sumber.

Kelebihan

Sumber terbuka (Apache 2.0) dan dirancang untuk penerapan perusahaan/di tempat.

Operasi real-time, hanya CPU dengan latensi sangat rendah dan ukuran model kecil.

Fokus eksplisit pada penekanan pembicara latar belakang yang bersaing, titik nyeri Voice AI produksi yang umum.

Kekurangan

Dioptimalkan untuk audio streaming/panggilan 16 kHz; mungkin memerlukan pengambilan sampel ulang dan integrasi pipeline yang cermat untuk format lain.

Sebagai model peningkatan ucapan, model ini dapat memperkenalkan artefak atau menekan secara berlebihan dalam kondisi kebisingan/tumpang tindih ekstrem tergantung pada domain input.

Hasil terbaik mungkin bergantung pada integrasi streaming berbasis bingkai yang tepat (status sesi, ukuran bingkai) daripada pemrosesan batch offline sederhana.

Cara Menggunakan Hush

1) Buka halaman model Hush: Buka repositori Hugging Face resmi untuk model: https://huggingface.co/weya-ai/hush

2) Pilih jalur integrasi Anda (demo cepat vs. produksi): Putuskan apakah Anda ingin (a) mencoba Hush melalui antarmuka Hugging Face yang di-host untuk pengujian cepat, atau (b) mengintegrasikannya ke dalam tumpukan Voice AI Anda sendiri untuk pemrosesan panggilan real-time.

3) Coba Hush di browser (tes cepat): Di halaman model Hugging Face, gunakan demo/widget yang tersedia (jika ditampilkan) untuk menjalankan contoh dan membandingkan input bising vs. output yang ditingkatkan.

4) Unduh aset model untuk penggunaan lokal: Dari file repo Hugging Face, unduh checkpoint dan/atau bundel produksi ONNX (tarball ONNX di bawah direktori onnx/) tergantung pada kebutuhan runtime Anda.

5) Gunakan ONNX untuk penerapan real-time CPU: Untuk penggunaan produksi tanpa PyTorch, gunakan bundel ONNX yang sudah dibuat sebelumnya sehingga Hush dapat berjalan sepenuhnya pada CPU secara real time (model ini dirancang untuk memproses frame ~10 ms dengan komputasi sub-ms pada CPU tipikal).

6) Integrasikan ke dalam pipeline audio Anda di 'depan': Tempatkan Hush sebelum ASR/transkripsi atau agen suara Anda sehingga audio panggilan ditingkatkan terlebih dahulu; ini meningkatkan kejelasan dan mengurangi kebisingan latar belakang dan ucapan yang bersaing yang mencapai komponen hilir.

7) Umpankan audio sebagai aliran real-time: Jalankan Hush terus-menerus pada frame audio langsung (misalnya, potongan 10 ms) untuk menjaga latensi tetap rendah dan mempertahankan perilaku real-time untuk panggilan dan sistem percakapan.

8) Validasi di lingkungan target Anda: Uji dengan kondisi panggilan Anda yang sebenarnya (kafe, jalanan, kebisingan kantor, pembicara yang tumpang tindih). Perhatikan bahwa Hush dilatih dengan pembicara latar belakang pada SIR moderat (sekitar 12–24 dB), sehingga pembicara yang bersaing yang sangat keras mungkin tidak sepenuhnya ditekan.

9) Pahami apa yang tidak boleh digunakan sebagai output: Jika Anda melihat referensi ke 'separation head' atau masker pembicara latar belakang, perlakukan itu sebagai regularizer tambahan waktu pelatihan (masker lunak domain ERB), bukan output pemisahan sumber mandiri untuk produksi.

10) Terapkan pada OS target Anda: Terapkan runtime CPU di mana Anda membutuhkannya (Linux, macOS termasuk Apple Silicon, atau Windows) menggunakan pendekatan ONNX untuk menghindari dependensi produksi yang berat.

FAQ Hush

Hush adalah model peningkatan ucapan/penekanan kebisingan sumber terbuka yang dibangun untuk Voice AI yang menghilangkan kebisingan latar belakang dan menekan pembicara latar belakang yang bersaing dari audio panggilan dunia nyata.

Video Hush

Artikel Populer

Atoms: Platform AI Multi-Agen yang Mengubah Ide menjadi Produk Siap Diluncurkan

May 22, 2026

Nano Banana SBTI: Apa Itu, Bagaimana Cara Kerjanya, dan Cara Menggunakannya di Tahun 2026

Apr 15, 2026

Ulasan Atoms — Pembuat Produk AI yang Mendefinisikan Ulang Kreasi Digital di Tahun 2026

Apr 10, 2026

Kilo Claw: Cara Menerapkan dan Menggunakan Agen AI "Lakukan-Untuk-Anda" Sejati (Pembaruan 2026)

Apr 3, 2026

Alat AI Terbaru Serupa dengan Hush

EchoWave

FreemiumAI Video Editing Voice & Audio Editing AI Social Media Assistant

EchoWave adalah platform pengeditan video dan audio online yang memungkinkan pembuat untuk mengubah konten audio menjadi video yang menarik dengan visualisasi bentuk gelombang, subtitle, dan efek untuk dibagikan di media sosial.

AIdeaflow Podcast

FreeAI Podcast Assistant Text to Speech Voice & Audio Editing

AIdeaflow Podcast adalah platform bertenaga AI yang mengubah teks menjadi konten podcast yang menarik dengan percakapan alami di lebih dari 120 suara dan berbagai bahasa.

TranscribetoText.AI

FreemiumTranscription AI Speech Recognition Voice & Audio Editing

TranscribeToText.AI adalah layanan transkripsi online yang kuat yang mengonversi file audio dan video menjadi teks dalam lebih dari 120 bahasa dengan akurasi 99,9%, menawarkan akses transkripsi tanpa batas dan opsi output yang fleksibel.

Rift Podcast

Free TrialAI Podcast Assistant Text to Speech Voice & Audio Editing

Rift Podcast adalah aplikasi bertenaga AI yang mengubah konten web menjadi podcast audio yang dipersonalisasi, menawarkan wawasan eksklusif yang dikurasi dari berbagai platform teknologi dan disampaikan dalam hanya 15 menit setiap hari.

Alat AI Populer Seperti Hush

W-Okada Voice Changer

FreemiumAI Voice Changer Voice & Audio Editing AI Voice Chat Generator

W-Okada Voice Changer adalah perangkat lunak konversi suara real-time open-source yang menggunakan AI untuk mengubah suara dengan kualitas tinggi dan latensi rendah.

FnKey

FreeText to Speech Voice & Audio Editing

FnKey adalah aplikasi bilah menu macOS ringan yang memungkinkan transkripsi suara-ke-teks cepat dengan menahan tombol Fn untuk berbicara dan secara otomatis menempelkan teks yang ditranskripsi saat dilepaskan.

Background noise removal

FreeAI Noise Cancellation Voice & Audio Editing

Sebuah ekstensi Chrome yang kuat yang menggunakan teknologi AI canggih untuk menghapus kebisingan latar belakang yang tidak diinginkan dari file audio dan video, menawarkan pembatalan kebisingan waktu nyata untuk kualitas suara yang jernih.

Audio player for ChatGPT

FreeText to Speech Voice & Audio Editing

Ekstensi Chrome yang meningkatkan fitur Read Aloud ChatGPT dengan menambahkan pemutar audio yang ramah pengguna dengan kontrol dasar seperti putar/jeda, bilah pencarian, dan tampilan durasi.

Peringkat

Kirim & PromosikanNew

Hush

Informasi Produk

Apa itu Hush

Fitur Utama Hush

Kasus Penggunaan Hush

Kelebihan

Kekurangan

Cara Menggunakan Hush

FAQ Hush

1. Apa itu Hush oleh weya AI?

2. Masalah apa yang dipecahkan Hush untuk sistem Voice AI?

3. Apakah Hush berjalan secara real time, dan apakah itu memerlukan GPU?

4. Seberapa besar model Hush?

5. Karakteristik data pelatihan apa yang disebutkan untuk Hush?

6. Arsitektur apa yang menjadi dasar Hush?

7. Bagaimana Hush dapat diterapkan dalam produksi?

8. Apakah Hush sumber terbuka, dan lisensi apa yang digunakannya?

9. Bagaimana kinerja Hush pada tolok ukur publik saat peluncuran?

Video Hush

Artikel Populer

Alat AI Terbaru Serupa dengan Hush

Alat AI Populer Seperti Hush