Hush는 Voice AI 시스템에 어떤 문제를 해결해 주나요?

Hush는 실시간 통화 오디오의 품질을 향상시켜 다운스트림 시스템(ASR, 음성 에이전트, 콜센터 봇, 전사 파이프라인)이 특히 시끄러운 환경과 겹치는 목소리 속에서도 주요 화자를 더 안정적으로 이해할 수 있도록 합니다.

Hush는 실시간으로 실행되며 GPU가 필요한가요?

네, Hush는 실시간으로 CPU에서 완전히 실행되도록 설계되었으며(일반적으로 10ms 오디오 프레임당 처리 시간 약 1ms 미만), GPU가 필요하지 않습니다.

Hush 모델의 크기는 어느 정도인가요?

모델 크기는 약 8MB입니다.

Hush의 훈련 데이터 특징은 무엇인가요?

Hush는 10,000시간 이상의 혼합된 노이즈 오디오로 훈련되었으며, 데이터셋의 약 60%에서 12-24dB의 신호 대 간섭비(SIR)로 경쟁하는 사람의 목소리가 존재했습니다.

Hush는 어떤 아키텍처를 기반으로 하나요?

Hush는 DeepFilterNet3 아키텍처를 기반으로 하며, 배경 화자를 더 잘 억제하기 위한 보조 분리 헤드(Auxiliary Separation Head)를 포함한 향상 기능을 제공합니다.

Hush는 프로덕션 환경에서 어떻게 배포할 수 있나요?

Hush는 ONNX를 통해 배포할 수 있으며(사전 구축된 ONNX 프로덕션 번들이 제공됨), Linux, macOS(Apple Silicon) 및 Windows에서 CPU 전용 배포가 가능합니다. 또한 저장소는 PyTorch 없이 프로덕션 배포를 위한 사전 구축된 Weya NC Standalone 라이브러리를 참조합니다.

Hush는 오픈소스인가요? 어떤 라이선스를 사용하나요?

네. 모델 가중치와 소스 코드는 Apache 2.0 라이선스 하에 공개적으로 사용 가능합니다(예: Hugging Face 및 GitHub).

Hush는 출시 당시 공개 벤치마크에서 어떤 성능을 보였나요?

출시 당시 Hush는 Hugging Face의 Audio-to-Audio 리더보드에서 5위를 차지하여 해당 카테고리에서 최고의 오픈소스 모델 중 하나로 자리매김했습니다.

Hush

Q: Hush 모델의 크기는 어느 정도인가요?

모델 크기는 약 8MB입니다.

WebsiteFreemiumVoice & Audio Editing

Hush는 8MB 오픈 소스 CPU 실시간 음성 향상 모델로, 10ms 프레임당 1ms 미만으로 프로덕션 음성 AI 통화에서 배경 소음과 경쟁 화자를 억제합니다.

웹사이트 방문

이 도구 광고하기

https://www.weya.ai/hush?ref=producthunt&utm_source=aipure

개요
동영상
대안

제품 정보

업데이트됨:Jul 8, 2026

Hush이란?

Hush는 전화 상담원, 콜센터 봇, 음성 비서 및 실시간 전사 파이프라인과 같은 프로덕션 음성 AI 시스템을 위해 특별히 구축된 weya AI의 자체 오픈 소스 노이즈 억제 및 음성 향상 모델입니다. 주로 일반적인 노이즈 벤치마크에 최적화된 많은 향상 모델과 달리, Hush는 겹치는 사람의 음성이 ASR 및 다운스트림 대화형 AI의 빈번한 실패 지점인 실제 통화를 위해 설계되었습니다. 가볍고(약 1.8M 매개변수, 약 8MB), CPU에서 실시간으로 완전히 실행되며, Apache 2.0 라이선스 하에 실용적인 배포 아티팩트(PyTorch 체크포인트 및 ONNX 프로덕션 번들)와 함께 배포됩니다.

Hush의 주요 기능

Hush는 weya AI에서 프로덕션 Voice AI를 위해 특별히 구축한 오픈 소스 실시간 음성 향상/노이즈 억제 모델입니다. CPU에서만 완벽하게 작동하며 매우 낮은 지연 시간(10ms 오디오 프레임당 약 1ms 미만 처리)을 제공하고, 가볍고(~8MB, ~1.8M 매개변수), 일반적인 주변 소음 외에도 경쟁하는 배경 화자(겹치는 음성)를 억제하는 데 중점을 두어 10,000시간 이상의 혼합 노이즈 오디오로 훈련되었습니다. 언어에 구애받지 않고(음향 기능으로 작동), 인과적/스트리밍 친화적이며, ONNX 프로덕션 번들이나 일반 OS용으로 미리 빌드된 독립 실행형 바이너리를 통해 배포할 수 있어 음성 파이프라인에 쉽게 통합할 수 있습니다.

배경 화자 억제: 고정된 노이즈뿐만 아니라 주요 발신자를 분리하고 경쟁하는 사람의 목소리(음성 에이전트 및 ASR의 일반적인 실패 모드)를 줄이도록 설계되었습니다.

실시간 CPU 성능: GPU 없이도 라이브 통화에 충분히 빠른 속도로 오디오 프레임을 처리합니다(10ms 오디오당 약 1ms 미만 보고).

경량 설치 공간: 작은 모델 크기(~8MB; ~1.8M 매개변수)로 제한된 리소스의 온프레미스 및 엣지 배포에 실용적입니다.

생산 지향 배포 옵션: ONNX 프로덕션 번들과 C/C++/Python에 직접 통합하기 위한 독립 실행형 라이브러리, Linux, macOS(Apple Silicon) 및 Windows용으로 미리 빌드된 바이너리와 함께 제공됩니다.

대규모 실제 노이즈 데이터로 훈련됨: 10,000시간 이상의 혼합 오디오로 훈련되었으며, 상당 부분은 중간 SIR 수준의 겹치는 화자를 포함하여 실제 통화의 견고성을 향상시킵니다.

언어에 구애받지 않는 향상: 언어적 내용에 의존하기보다는 음향 신호 품질을 향상시키므로 모든 언어에서 작동합니다.

Hush의 사용 사례

콜센터 음성 에이전트 및 IVR: 시끄러운 전화 오디오를 정리하고 배경 대화/TV를 억제하여 에이전트 이해도를 높이고, 재요청을 줄이며, 종단 간 음성 봇 성능을 안정화합니다.

실시간 전사 파이프라인: 음성 선명도를 향상시키고 노이즈 및 겹치는 화자의 간섭을 줄여 라이브 또는 녹음된 대화에서 ASR 정확도를 향상시킵니다.

BFSI 고객 온보딩, 판매 및 추심 전화: 시끄러운 환경과 화자 겹침이 흔한 규제된 고위험 통화(예: KYC, 대출/추심 대화)에서 명료도를 높입니다.

시끄러운 환경의 음성 비서: 주변 소음을 줄이고 주요 화자에 집중하여 카페, 거리, 사무실 및 기타 실제 환경에서 비서가 기능하도록 돕습니다.

규정 준수 및 QA 통화 검토: 소스 신호를 개선하여 더 명확한 감사, 품질 모니터링 및 다운스트림 분석(요약, 의도 감지)을 위해 녹음된 통화 오디오를 향상시킵니다.

장점

오픈 소스(Apache 2.0)이며 엔터프라이즈/온프레미스 배포용으로 설계되었습니다.

매우 낮은 지연 시간과 작은 모델 크기로 실시간 CPU 전용으로 작동합니다.

경쟁하는 배경 화자 억제에 명시적으로 중점을 둡니다. 이는 일반적인 프로덕션 Voice AI의 문제점입니다.

단점

16kHz 스트리밍/통화 오디오에 최적화되어 있으므로 다른 형식의 경우 리샘플링 및 신중한 파이프라인 통합이 필요할 수 있습니다.

음성 향상 모델로서 입력 도메인에 따라 극심한 노이즈/겹침 조건에서 아티팩트를 도입하거나 과도하게 억제할 수 있습니다.

최상의 결과는 간단한 오프라인 배치 처리보다는 적절한 프레임 기반 스트리밍 통합(세션 상태, 프레임 크기 조정)에 따라 달라질 수 있습니다.

Hush 사용 방법

1) Hush 모델 페이지 열기: 모델의 공식 Hugging Face 저장소로 이동합니다: https://huggingface.co/weya-ai/hush

2) 통합 경로 선택 (빠른 데모 vs. 프로덕션): (a) 빠른 테스트를 위해 호스팅된 Hugging Face 인터페이스를 통해 Hush를 사용해 볼 것인지, 아니면 (b) 실시간 통화 처리를 위해 자체 음성 AI 스택에 통합할 것인지 결정합니다.

3) 브라우저에서 Hush 사용해 보기 (빠른 테스트): Hugging Face 모델 페이지에서 사용 가능한 데모/위젯(표시되는 경우)을 사용하여 예제를 실행하고 노이즈가 있는 입력과 향상된 출력을 비교합니다.

4) 로컬 사용을 위한 모델 자산 다운로드: Hugging Face 저장소 파일에서 런타임 요구 사항에 따라 체크포인트 및/또는 ONNX 프로덕션 번들(onnx/ 디렉토리 아래의 ONNX tarball)을 다운로드합니다.

5) CPU 실시간 배포를 위해 ONNX 사용: PyTorch 없이 프로덕션 용도로는 사전 구축된 ONNX 번들을 사용하여 Hush가 CPU에서 실시간으로 완전히 실행되도록 합니다(이 모델은 일반적인 CPU에서 하위 밀리초 계산으로 약 10ms 프레임을 처리하도록 설계되었습니다).

6) 오디오 파이프라인의 '앞'에 통합: ASR/전사 또는 음성 에이전트 앞에 Hush를 배치하여 통화 오디오가 먼저 향상되도록 합니다. 이는 명료도를 향상시키고 다운스트림 구성 요소에 도달하는 배경 소음 및 경쟁 음성을 줄입니다.

7) 실시간 스트림으로 오디오 공급: Hush를 라이브 오디오 프레임(예: 10ms 청크)에서 지속적으로 실행하여 대기 시간을 낮게 유지하고 통화 및 대화 시스템의 실시간 동작을 유지합니다.

8) 대상 환경에서 유효성 검사: 실제 통화 조건(카페, 거리, 사무실 소음, 겹치는 화자)으로 테스트합니다. Hush는 중간 SIR(약 12–24dB)의 배경 화자와 함께 훈련되었으므로, 극도로 시끄러운 경쟁 화자는 완전히 억제되지 않을 수 있습니다.

9) 출력으로 사용하지 말아야 할 것 이해: ‘분리 헤드’ 또는 배경 화자 마스크에 대한 참조가 보이면, 이를 프로덕션을 위한 독립형 소스 분리 출력이 아닌 훈련 시 보조 정규화 장치(ERB 도메인 소프트 마스크)로 취급하십시오.

10) 대상 OS에 배포: 무거운 프로덕션 종속성을 피하기 위해 ONNX 접근 방식을 사용하여 필요한 곳(Linux, Apple Silicon을 포함한 macOS 또는 Windows)에 CPU 런타임을 배포합니다.

Hush 자주 묻는 질문

Hush는 Voice AI를 위해 개발된 오픈소스 음성 향상/노이즈 억제 모델로, 실제 통화 오디오에서 배경 소음을 제거하고 경쟁하는 배경 화자를 억제합니다.

Hush 비디오

Hush와(과) 유사한 최신 AI 도구

EchoWave

FreemiumAI Video Editing Voice & Audio Editing AI Social Media Assistant

EchoWave는 제작자가 오디오 콘텐츠를 소셜 미디어 공유를 위한 파형 시각화, 자막 및 효과가 포함된 매력적인 비디오로 변환할 수 있도록 하는 온라인 비디오 및 오디오 편집 플랫폼입니다.

AIdeaflow Podcast

FreeAI Podcast Assistant Text to Speech Voice & Audio Editing

AIdeaflow Podcast는 120개 이상의 음성과 여러 언어로 자연스러운 대화를 통해 텍스트를 매력적인 팟캐스트 콘텐츠로 변환하는 AI 기반 플랫폼입니다.

TranscribetoText.AI

FreemiumTranscription AI Speech Recognition Voice & Audio Editing

TranscribeToText.AI는 99.9%의 정확도로 120개 이상의 언어로 오디오 및 비디오 파일을 텍스트로 변환하는 강력한 온라인 전사 서비스로, 무제한 전사 접근 및 유연한 출력 옵션을 제공합니다.

Rift Podcast

Free TrialAI Podcast Assistant Text to Speech Voice & Audio Editing

Rift Podcast는 웹 콘텐츠를 개인화된 오디오 팟캐스트로 변환하는 AI 기반 애플리케이션으로, 다양한 기술 플랫폼에서 큐레이션된 독점 통찰력을 제공하며 매일 단 15분에 전달됩니다.

Hush와(과) 유사한 인기 AI 도구

W-Okada Voice Changer

FreemiumAI Voice Changer Voice & Audio Editing AI Voice Chat Generator

W-Okada Voice Changer는 AI를 사용하여 고품질 및 저지연으로 음성을 변환하는 오픈 소스 실시간 음성 변환 소프트웨어입니다.

FnKey

FreeText to Speech Voice & Audio Editing

FnKey는 Fn 키를 눌러 말하고 놓으면 변환된 텍스트를 자동으로 붙여넣어 빠른 음성-텍스트 변환을 가능하게 하는 가벼운 macOS 메뉴 막대 애플리케이션입니다.

Background noise removal

FreeAI Noise Cancellation Voice & Audio Editing

원치 않는 배경 소음을 오디오 및 비디오 파일에서 제거하기 위해 고급 AI 기술을 사용하는 강력한 Chrome 확장으로, 크리스탈처럼 맑은 사운드 품질을 위한 실시간 소음 제거를 제공합니다.

Audio player for ChatGPT

FreeText to Speech Voice & Audio Editing

재생/일시 중지, 검색 막대 및 재생 시간 표시와 같은 기본 컨트롤이 있는 사용자 친화적인 오디오 플레이어를 추가하여 ChatGPT의 읽어주기 기능을 향상시키는 Chrome 확장 프로그램입니다.

랭킹

제출 & 홍보New

Hush

제품 정보

Hush이란?

Hush의 주요 기능

Hush의 사용 사례

장점

단점

Hush 사용 방법

Hush 자주 묻는 질문

1. Weya AI의 Hush는 무엇인가요?

2. Hush는 Voice AI 시스템에 어떤 문제를 해결해 주나요?

3. Hush는 실시간으로 실행되며 GPU가 필요한가요?

4. Hush 모델의 크기는 어느 정도인가요?

5. Hush의 훈련 데이터 특징은 무엇인가요?

6. Hush는 어떤 아키텍처를 기반으로 하나요?

7. Hush는 프로덕션 환경에서 어떻게 배포할 수 있나요?

8. Hush는 오픈소스인가요? 어떤 라이선스를 사용하나요?

9. Hush는 출시 당시 공개 벤치마크에서 어떤 성능을 보였나요?

Hush 비디오

인기 기사

Hush와(과) 유사한 최신 AI 도구

Hush와(과) 유사한 인기 AI 도구