Hush

Hush

WebsiteFreemiumVoice & Audio Editing
Hush là một mô hình tăng cường giọng nói mã nguồn mở, thời gian thực CPU 8 MB giúp triệt tiêu tiếng ồn nền và người nói cạnh tranh cho các cuộc gọi AI giọng nói sản xuất trong vòng dưới ~1 ms trên mỗi khung 10 ms.
https://www.weya.ai/hush?ref=producthunt&utm_source=aipure
Hush

Thông tin Sản phẩm

Đã cập nhật:Jun 24, 2026

Hush là gì

Hush là mô hình khử nhiễu và tăng cường giọng nói mã nguồn mở nội bộ của weya AI được xây dựng đặc biệt cho các hệ thống AI giọng nói sản xuất như tổng đài điện thoại, bot trung tâm cuộc gọi, trợ lý giọng nói và đường ống chuyển đổi giọng nói thời gian thực. Không giống như nhiều mô hình tăng cường được tối ưu hóa chủ yếu cho các điểm chuẩn nhiễu chung, Hush được thiết kế cho các cuộc gọi trong thế giới thực, nơi lời nói của con người chồng chéo là một điểm lỗi thường xuyên đối với ASR và AI đàm thoại hạ nguồn. Nó nhẹ (~1.8M tham số, ~8 MB), chạy hoàn toàn trên CPU trong thời gian thực và được phân phối với các tạo phẩm triển khai thực tế (điểm kiểm tra PyTorch và gói sản xuất ONNX) theo giấy phép Apache 2.0.

Các Tính năng Chính của Hush

Hush là một mô hình tăng cường giọng nói/triệt tiêu tiếng ồn mã nguồn mở, thời gian thực từ weya AI được xây dựng đặc biệt cho Voice AI sản xuất. Nó chạy hoàn toàn trên CPU với độ trễ rất thấp (khoảng dưới 1 ms xử lý cho mỗi khung âm thanh 10 ms), nhẹ (~8 MB, ~1.8M tham số) và được đào tạo trên hơn 10.000 giờ âm thanh nhiễu hỗn hợp với sự nhấn mạnh mạnh mẽ vào việc triệt tiêu các loa nền cạnh tranh (lời nói chồng chéo) ngoài tiếng ồn xung quanh thông thường. Nó không phụ thuộc vào ngôn ngữ (hoạt động trên các đặc trưng âm thanh), thân thiện với nguyên nhân/truyền phát và có thể được triển khai thông qua gói sản xuất ONNX hoặc các tệp nhị phân độc lập được xây dựng sẵn cho các hệ điều hành phổ biến, giúp dễ dàng tích hợp vào các đường ống giọng nói.
Triệt tiêu người nói nền: Được thiết kế để cách ly người gọi chính và giảm các giọng nói cạnh tranh của con người (một chế độ lỗi phổ biến đối với tổng đài viên và ASR), không chỉ tiếng ồn tĩnh.
Hiệu suất CPU thời gian thực: Xử lý các khung âm thanh đủ nhanh cho các cuộc gọi trực tiếp (được báo cáo dưới ~1 ms cho mỗi 10 ms âm thanh) mà không yêu cầu GPU.
Dung lượng nhẹ: Kích thước mô hình nhỏ (~8 MB; ~1.8M tham số) giúp nó thực tế cho việc triển khai tại chỗ và biên với tài nguyên hạn chế.
Tùy chọn triển khai theo định hướng sản xuất: Đi kèm với gói sản xuất ONNX và thư viện độc lập để tích hợp trực tiếp trong C/C++/Python, với các tệp nhị phân được xây dựng sẵn cho Linux, macOS (Apple Silicon) và Windows.
Được đào tạo trên dữ liệu nhiễu thực tế quy mô lớn: Được đào tạo trên hơn 10.000 giờ âm thanh hỗn hợp; một phần lớn bao gồm những người nói chồng chéo ở mức SIR vừa phải, cải thiện độ bền trong các cuộc gọi thực tế.
Cải thiện không phụ thuộc vào ngôn ngữ: Hoạt động trên nhiều ngôn ngữ vì nó tăng cường chất lượng tín hiệu âm thanh chứ không dựa vào nội dung ngôn ngữ.

Các Trường hợp Sử dụng của Hush

Tổng đài viên & IVR: Làm sạch âm thanh điện thoại ồn ào và triệt tiêu tiếng nói/TV nền để cải thiện khả năng hiểu của tổng đài viên, giảm nhắc lại và ổn định hiệu suất bot thoại đầu cuối.
Đường ống chuyển đổi giọng nói thành văn bản thời gian thực: Cải thiện độ chính xác của ASR trên các cuộc hội thoại trực tiếp hoặc đã ghi bằng cách tăng cường độ rõ của giọng nói và giảm nhiễu từ tiếng ồn và người nói chồng chéo.
Cuộc gọi giới thiệu khách hàng, bán hàng và thu nợ BFSI: Tăng cường khả năng hiểu trong các cuộc gọi được quy định, có tính rủi ro cao (ví dụ: KYC, các cuộc trò chuyện về khoản vay/thu nợ) nơi môi trường ồn ào và người nói chồng chéo là phổ biến.
Trợ lý giọng nói trong môi trường ồn ào: Giúp trợ lý hoạt động trong quán cà phê, đường phố, văn phòng và các môi trường thực tế khác bằng cách giảm tiếng ồn xung quanh và tập trung vào người nói chính.
Đánh giá cuộc gọi tuân thủ và QA: Tăng cường âm thanh cuộc gọi đã ghi để kiểm tra rõ ràng hơn, giám sát chất lượng và phân tích hạ nguồn (tóm tắt, phát hiện ý định) bằng cách cải thiện tín hiệu nguồn.

Ưu điểm

Mã nguồn mở (Apache 2.0) và được thiết kế để triển khai doanh nghiệp/tại chỗ.
Hoạt động thời gian thực, chỉ CPU với độ trễ rất thấp và kích thước mô hình nhỏ.
Tập trung rõ ràng vào việc triệt tiêu các loa nền cạnh tranh, một điểm khó khăn phổ biến của Voice AI sản xuất.

Nhược điểm

Được tối ưu hóa cho âm thanh truyền phát/cuộc gọi 16 kHz; có thể yêu cầu lấy mẫu lại và tích hợp đường ống cẩn thận cho các định dạng khác.
Là một mô hình tăng cường giọng nói, nó có thể tạo ra các tạo tác hoặc triệt tiêu quá mức trong điều kiện tiếng ồn/chồng chéo cực đoan tùy thuộc vào miền đầu vào.
Kết quả tốt nhất có thể phụ thuộc vào việc tích hợp truyền phát dựa trên khung phù hợp (trạng thái phiên, kích thước khung) thay vì xử lý hàng loạt ngoại tuyến đơn giản.

Cách Sử dụng Hush

1) Mở trang mô hình Hush: Truy cập kho lưu trữ Hugging Face chính thức cho mô hình: https://huggingface.co/weya-ai/hush
2) Chọn đường dẫn tích hợp của bạn (bản demo nhanh so với sản xuất): Quyết định xem bạn muốn (a) dùng thử Hush thông qua giao diện Hugging Face được lưu trữ để kiểm tra nhanh, hoặc (b) tích hợp nó vào ngăn xếp AI giọng nói của riêng bạn để xử lý cuộc gọi thời gian thực.
3) Dùng thử Hush trong trình duyệt (kiểm tra nhanh): Trên trang mô hình Hugging Face, sử dụng bản demo/widget có sẵn (nếu hiển thị) để chạy một ví dụ và so sánh đầu vào nhiễu so với đầu ra được tăng cường.
4) Tải xuống các tài sản mô hình để sử dụng cục bộ: Từ các tệp kho lưu trữ Hugging Face, tải xuống điểm kiểm tra và/hoặc gói sản xuất ONNX (tệp tarball ONNX trong thư mục onnx/) tùy thuộc vào nhu cầu thời gian chạy của bạn.
5) Sử dụng ONNX để triển khai thời gian thực CPU: Để sử dụng sản xuất mà không cần PyTorch, hãy sử dụng gói ONNX được xây dựng sẵn để Hush có thể chạy hoàn toàn trên CPU trong thời gian thực (mô hình được thiết kế để xử lý các khung ~10 ms với tính toán dưới mili giây trên các CPU thông thường).
6) Tích hợp vào đường ống âm thanh của bạn ở 'phía trước': Đặt Hush trước ASR/chuyển đổi giọng nói hoặc tác nhân giọng nói của bạn để âm thanh cuộc gọi được tăng cường trước; điều này cải thiện khả năng dễ hiểu và giảm tiếng ồn nền và lời nói cạnh tranh đến các thành phần hạ nguồn.
7) Cung cấp âm thanh dưới dạng luồng thời gian thực: Chạy Hush liên tục trên các khung âm thanh trực tiếp (ví dụ: các đoạn 10 ms) để giữ độ trễ thấp và duy trì hành vi thời gian thực cho các cuộc gọi và hệ thống đàm thoại.
8) Xác thực trên môi trường mục tiêu của bạn: Kiểm tra với các điều kiện cuộc gọi thực tế của bạn (quán cà phê, đường phố, tiếng ồn văn phòng, người nói chồng chéo). Lưu ý rằng Hush được đào tạo với người nói nền ở SIR vừa phải (khoảng 12–24 dB), vì vậy những người nói cạnh tranh cực kỳ lớn có thể không bị triệt tiêu hoàn toàn.
9) Hiểu những gì không nên sử dụng làm đầu ra: Nếu bạn thấy các tham chiếu đến 'separation head' hoặc mặt nạ người nói nền, hãy coi nó là một bộ điều hòa phụ trợ thời gian đào tạo (mặt nạ mềm miền ERB), không phải là một đầu ra tách nguồn độc lập để sản xuất.
10) Triển khai trên hệ điều hành mục tiêu của bạn: Triển khai thời gian chạy CPU ở nơi bạn cần (Linux, macOS bao gồm Apple Silicon hoặc Windows) bằng cách sử dụng phương pháp ONNX để tránh các phụ thuộc sản xuất nặng nề.

Câu hỏi Thường gặp về Hush

Hush là một mô hình tăng cường giọng nói/triệt tiêu tiếng ồn mã nguồn mở được xây dựng cho AI giọng nói, giúp loại bỏ tiếng ồn xung quanh và triệt tiêu các giọng nói cạnh tranh từ các cuộc gọi thực tế.

Công cụ AI Mới nhất Tương tự Hush

EchoWave
EchoWave
EchoWave là một nền tảng chỉnh sửa video và âm thanh trực tuyến cho phép các nhà sáng tạo chuyển đổi nội dung âm thanh thành video hấp dẫn với hình ảnh sóng, phụ đề và hiệu ứng để chia sẻ trên mạng xã hội.
AIdeaflow Podcast
AIdeaflow Podcast
AIdeaflow Podcast là một nền tảng được hỗ trợ bởi AI chuyển đổi văn bản thành nội dung podcast hấp dẫn với các cuộc hội thoại tự nhiên trên hơn 120 giọng nói và nhiều ngôn ngữ.
TranscribetoText.AI
TranscribetoText.AI
TranscribeToText.AI là một dịch vụ phiên âm trực tuyến mạnh mẽ chuyển đổi các tệp âm thanh và video thành văn bản trong hơn 120 ngôn ngữ với độ chính xác 99.9%, cung cấp quyền truy cập phiên âm không giới hạn và các tùy chọn đầu ra linh hoạt.
Rift Podcast
Rift Podcast
Rift Podcast là một ứng dụng được hỗ trợ bởi AI, biến nội dung web thành các podcast âm thanh cá nhân hóa, cung cấp những hiểu biết độc quyền được chọn lọc từ nhiều nền tảng công nghệ và được phát hành chỉ trong 15 phút mỗi ngày.