Hush

Hush

WebsiteFreemiumVoice & Audio Editing
Hush는 8MB 오픈 소스 CPU 실시간 음성 향상 모델로, 10ms 프레임당 1ms 미만으로 프로덕션 음성 AI 통화에서 배경 소음과 경쟁 화자를 억제합니다.
https://www.weya.ai/hush?ref=producthunt&utm_source=aipure
Hush

제품 정보

업데이트됨:Jun 24, 2026

Hush이란?

Hush는 전화 상담원, 콜센터 봇, 음성 비서 및 실시간 전사 파이프라인과 같은 프로덕션 음성 AI 시스템을 위해 특별히 구축된 weya AI의 자체 오픈 소스 노이즈 억제 및 음성 향상 모델입니다. 주로 일반적인 노이즈 벤치마크에 최적화된 많은 향상 모델과 달리, Hush는 겹치는 사람의 음성이 ASR 및 다운스트림 대화형 AI의 빈번한 실패 지점인 실제 통화를 위해 설계되었습니다. 가볍고(약 1.8M 매개변수, 약 8MB), CPU에서 실시간으로 완전히 실행되며, Apache 2.0 라이선스 하에 실용적인 배포 아티팩트(PyTorch 체크포인트 및 ONNX 프로덕션 번들)와 함께 배포됩니다.

Hush의 주요 기능

Hush는 weya AI에서 프로덕션 Voice AI를 위해 특별히 구축한 오픈 소스 실시간 음성 향상/노이즈 억제 모델입니다. CPU에서만 완벽하게 작동하며 매우 낮은 지연 시간(10ms 오디오 프레임당 약 1ms 미만 처리)을 제공하고, 가볍고(~8MB, ~1.8M 매개변수), 일반적인 주변 소음 외에도 경쟁하는 배경 화자(겹치는 음성)를 억제하는 데 중점을 두어 10,000시간 이상의 혼합 노이즈 오디오로 훈련되었습니다. 언어에 구애받지 않고(음향 기능으로 작동), 인과적/스트리밍 친화적이며, ONNX 프로덕션 번들이나 일반 OS용으로 미리 빌드된 독립 실행형 바이너리를 통해 배포할 수 있어 음성 파이프라인에 쉽게 통합할 수 있습니다.
배경 화자 억제: 고정된 노이즈뿐만 아니라 주요 발신자를 분리하고 경쟁하는 사람의 목소리(음성 에이전트 및 ASR의 일반적인 실패 모드)를 줄이도록 설계되었습니다.
실시간 CPU 성능: GPU 없이도 라이브 통화에 충분히 빠른 속도로 오디오 프레임을 처리합니다(10ms 오디오당 약 1ms 미만 보고).
경량 설치 공간: 작은 모델 크기(~8MB; ~1.8M 매개변수)로 제한된 리소스의 온프레미스 및 엣지 배포에 실용적입니다.
생산 지향 배포 옵션: ONNX 프로덕션 번들과 C/C++/Python에 직접 통합하기 위한 독립 실행형 라이브러리, Linux, macOS(Apple Silicon) 및 Windows용으로 미리 빌드된 바이너리와 함께 제공됩니다.
대규모 실제 노이즈 데이터로 훈련됨: 10,000시간 이상의 혼합 오디오로 훈련되었으며, 상당 부분은 중간 SIR 수준의 겹치는 화자를 포함하여 실제 통화의 견고성을 향상시킵니다.
언어에 구애받지 않는 향상: 언어적 내용에 의존하기보다는 음향 신호 품질을 향상시키므로 모든 언어에서 작동합니다.

Hush의 사용 사례

콜센터 음성 에이전트 및 IVR: 시끄러운 전화 오디오를 정리하고 배경 대화/TV를 억제하여 에이전트 이해도를 높이고, 재요청을 줄이며, 종단 간 음성 봇 성능을 안정화합니다.
실시간 전사 파이프라인: 음성 선명도를 향상시키고 노이즈 및 겹치는 화자의 간섭을 줄여 라이브 또는 녹음된 대화에서 ASR 정확도를 향상시킵니다.
BFSI 고객 온보딩, 판매 및 추심 전화: 시끄러운 환경과 화자 겹침이 흔한 규제된 고위험 통화(예: KYC, 대출/추심 대화)에서 명료도를 높입니다.
시끄러운 환경의 음성 비서: 주변 소음을 줄이고 주요 화자에 집중하여 카페, 거리, 사무실 및 기타 실제 환경에서 비서가 기능하도록 돕습니다.
규정 준수 및 QA 통화 검토: 소스 신호를 개선하여 더 명확한 감사, 품질 모니터링 및 다운스트림 분석(요약, 의도 감지)을 위해 녹음된 통화 오디오를 향상시킵니다.

장점

오픈 소스(Apache 2.0)이며 엔터프라이즈/온프레미스 배포용으로 설계되었습니다.
매우 낮은 지연 시간과 작은 모델 크기로 실시간 CPU 전용으로 작동합니다.
경쟁하는 배경 화자 억제에 명시적으로 중점을 둡니다. 이는 일반적인 프로덕션 Voice AI의 문제점입니다.

단점

16kHz 스트리밍/통화 오디오에 최적화되어 있으므로 다른 형식의 경우 리샘플링 및 신중한 파이프라인 통합이 필요할 수 있습니다.
음성 향상 모델로서 입력 도메인에 따라 극심한 노이즈/겹침 조건에서 아티팩트를 도입하거나 과도하게 억제할 수 있습니다.
최상의 결과는 간단한 오프라인 배치 처리보다는 적절한 프레임 기반 스트리밍 통합(세션 상태, 프레임 크기 조정)에 따라 달라질 수 있습니다.

Hush 사용 방법

1) Hush 모델 페이지 열기: 모델의 공식 Hugging Face 저장소로 이동합니다: https://huggingface.co/weya-ai/hush
2) 통합 경로 선택 (빠른 데모 vs. 프로덕션): (a) 빠른 테스트를 위해 호스팅된 Hugging Face 인터페이스를 통해 Hush를 사용해 볼 것인지, 아니면 (b) 실시간 통화 처리를 위해 자체 음성 AI 스택에 통합할 것인지 결정합니다.
3) 브라우저에서 Hush 사용해 보기 (빠른 테스트): Hugging Face 모델 페이지에서 사용 가능한 데모/위젯(표시되는 경우)을 사용하여 예제를 실행하고 노이즈가 있는 입력과 향상된 출력을 비교합니다.
4) 로컬 사용을 위한 모델 자산 다운로드: Hugging Face 저장소 파일에서 런타임 요구 사항에 따라 체크포인트 및/또는 ONNX 프로덕션 번들(onnx/ 디렉토리 아래의 ONNX tarball)을 다운로드합니다.
5) CPU 실시간 배포를 위해 ONNX 사용: PyTorch 없이 프로덕션 용도로는 사전 구축된 ONNX 번들을 사용하여 Hush가 CPU에서 실시간으로 완전히 실행되도록 합니다(이 모델은 일반적인 CPU에서 하위 밀리초 계산으로 약 10ms 프레임을 처리하도록 설계되었습니다).
6) 오디오 파이프라인의 '앞'에 통합: ASR/전사 또는 음성 에이전트 앞에 Hush를 배치하여 통화 오디오가 먼저 향상되도록 합니다. 이는 명료도를 향상시키고 다운스트림 구성 요소에 도달하는 배경 소음 및 경쟁 음성을 줄입니다.
7) 실시간 스트림으로 오디오 공급: Hush를 라이브 오디오 프레임(예: 10ms 청크)에서 지속적으로 실행하여 대기 시간을 낮게 유지하고 통화 및 대화 시스템의 실시간 동작을 유지합니다.
8) 대상 환경에서 유효성 검사: 실제 통화 조건(카페, 거리, 사무실 소음, 겹치는 화자)으로 테스트합니다. Hush는 중간 SIR(약 12–24dB)의 배경 화자와 함께 훈련되었으므로, 극도로 시끄러운 경쟁 화자는 완전히 억제되지 않을 수 있습니다.
9) 출력으로 사용하지 말아야 할 것 이해: ‘분리 헤드’ 또는 배경 화자 마스크에 대한 참조가 보이면, 이를 프로덕션을 위한 독립형 소스 분리 출력이 아닌 훈련 시 보조 정규화 장치(ERB 도메인 소프트 마스크)로 취급하십시오.
10) 대상 OS에 배포: 무거운 프로덕션 종속성을 피하기 위해 ONNX 접근 방식을 사용하여 필요한 곳(Linux, Apple Silicon을 포함한 macOS 또는 Windows)에 CPU 런타임을 배포합니다.

Hush 자주 묻는 질문

Hush는 Voice AI를 위해 개발된 오픈소스 음성 향상/노이즈 억제 모델로, 실제 통화 오디오에서 배경 소음을 제거하고 경쟁하는 배경 화자를 억제합니다.

Hush와(과) 유사한 최신 AI 도구

EchoWave
EchoWave
EchoWave는 제작자가 오디오 콘텐츠를 소셜 미디어 공유를 위한 파형 시각화, 자막 및 효과가 포함된 매력적인 비디오로 변환할 수 있도록 하는 온라인 비디오 및 오디오 편집 플랫폼입니다.
AIdeaflow Podcast
AIdeaflow Podcast
AIdeaflow Podcast는 120개 이상의 음성과 여러 언어로 자연스러운 대화를 통해 텍스트를 매력적인 팟캐스트 콘텐츠로 변환하는 AI 기반 플랫폼입니다.
TranscribetoText.AI
TranscribetoText.AI
TranscribeToText.AI는 99.9%의 정확도로 120개 이상의 언어로 오디오 및 비디오 파일을 텍스트로 변환하는 강력한 온라인 전사 서비스로, 무제한 전사 접근 및 유연한 출력 옵션을 제공합니다.
Rift Podcast
Rift Podcast
Rift Podcast는 웹 콘텐츠를 개인화된 오디오 팟캐스트로 변환하는 AI 기반 애플리케이션으로, 다양한 기술 플랫폼에서 큐레이션된 독점 통찰력을 제공하며 매일 단 15분에 전달됩니다.