Какую проблему решает Hush для систем голосового ИИ?

Hush улучшает качество аудиозаписей живых звонков, чтобы последующие системы (ASR, голосовые агенты, боты колл-центров, конвейеры транскрипции) могли более надежно понимать основного говорящего, особенно в шумных условиях и при наложении голосов.

Работает ли Hush в реальном времени и нужен ли ему графический процессор?

Да – Hush разработан для полной работы на ЦП в реальном времени (обычно менее ~1 мс обработки на 10 мс аудиокадра) и не требует графического процессора.

Насколько велика модель Hush?

Модель имеет размер примерно 8 МБ.

Какие характеристики обучающих данных упоминаются для Hush?

Hush был обучен на более чем 10 000 часах смешанного зашумленного аудио, при этом конкурирующие человеческие голоса присутствовали примерно в 60% набора данных при соотношении сигнал/помеха (SIR) 12–24 дБ.

На какой архитектуре основан Hush?

Hush построен на архитектуре DeepFilterNet3 и включает улучшение с вспомогательной головкой разделения для лучшего подавления фоновых говорящих.

Как Hush можно развернуть в производстве?

Hush может быть развернут через ONNX (предоставляется предварительно собранный производственный пакет ONNX), что позволяет развертывать только на ЦП в Linux, macOS (Apple Silicon) и Windows; репозиторий также ссылается на предварительно собранную библиотеку Weya NC Standalone для производственного развертывания без PyTorch.

Является ли Hush открытым исходным кодом и какую лицензию он использует?

Да. Веса модели и исходный код доступны публично (например, на Hugging Face и GitHub) под лицензией Apache 2.0.

Как Hush показал себя в публичных бенчмарках при запуске?

При запуске Hush занял 5-е место в таблице лидеров Audio-to-Audio на Hugging Face, что поместило его в число лучших моделей с открытым исходным кодом в своей категории.

Hush

WebsiteFreemiumVoice & Audio Editing

Hush — это модель улучшения речи с открытым исходным кодом размером 8 МБ, работающая на CPU в реальном времени, которая подавляет фоновый шум и конкурирующих говорящих для производственных вызовов голосового ИИ менее чем за ~1 мс на 10-миллисекундный кадр.

Посетить сайт

Прорекламировать этот инструмент

https://www.weya.ai/hush?ref=producthunt&utm_source=aipure

Обзор
Видео
Альтернативы

Информация о продукте

Обновлено:08/07/2026

Что такое Hush

Hush — это собственная модель подавления шума и улучшения речи с открытым исходным кодом от weya AI, разработанная специально для производственных систем голосового ИИ, таких как телефонные агенты, боты колл-центров, голосовые помощники и конвейеры транскрипции в реальном времени. В отличие от многих моделей улучшения, оптимизированных в основном для общих тестов шума, Hush разработан для реальных звонков, где перекрывающаяся человеческая речь является частой причиной сбоев для ASR и последующего разговорного ИИ. Он легкий (~1,8 млн параметров, ~8 МБ), полностью работает на CPU в реальном времени и распространяется с практическими артефактами развертывания (контрольная точка PyTorch и производственный пакет ONNX) под лицензией Apache 2.0.

Ключевые особенности Hush

Hush – это модель улучшения речи/подавления шума с открытым исходным кодом, разработанная weya AI специально для производственных систем голосового ИИ. Она работает полностью на центральном процессоре с очень низкой задержкой (около 1 мс обработки на 10 мс аудиокадра), имеет небольшой размер (~8 МБ, ~1,8 млн параметров) и обучена на более чем 10 000 часах смешанного зашумленного аудио с сильным акцентом на подавление конкурирующих фоновых говорящих (перекрывающаяся речь) в дополнение к типичному окружающему шуму. Она не зависит от языка (работает с акустическими характеристиками), является причинной/потоковой и может быть развернута с помощью производственного пакета ONNX или предварительно собранных автономных бинарных файлов для распространенных ОС, что упрощает интеграцию в голосовые конвейеры.

Подавление фонового говорящего: Предназначен для изоляции основного звонящего и уменьшения конкурирующих человеческих голосов (распространенный режим отказа для голосовых агентов и ASR), а не только стационарного шума.

Производительность CPU в реальном времени: Обрабатывает аудиокадры достаточно быстро для живых звонков (заявлено менее ~1 мс на 10 мс аудио) без необходимости использования GPU.

Легкий вес: Малый размер модели (~8 МБ; ~1,8 млн параметров) делает ее практичной для локальных и периферийных развертываний с ограниченными ресурсами.

Ориентированные на производство варианты развертывания: Поставляется с производственным пакетом ONNX и автономной библиотекой для прямой интеграции в C/C++/Python, с предварительно собранными бинарными файлами для Linux, macOS (Apple Silicon) и Windows.

Обучен на крупномасштабных реальных зашумленных данных: Обучен на более чем 10 000 часах смешанного аудио; большая часть включает перекрывающихся говорящих на умеренных уровнях SIR, что повышает надежность в реальных звонках.

Языково-независимое улучшение: Работает на разных языках, потому что улучшает качество акустического сигнала, а не полагается на лингвистическое содержание.

Варианты использования Hush

Голосовые агенты колл-центров и IVR: Очищает зашумленное телефонное аудио и подавляет фоновые разговоры/телевизор для улучшения понимания агентом, уменьшения повторных запросов и стабилизации производительности сквозного голосового бота.

Конвейеры транскрипции в реальном времени: Повышает точность ASR в живых или записанных разговорах за счет улучшения четкости речи и уменьшения помех от шума и перекрывающихся говорящих.

Онбординг клиентов BFSI, продажи и звонки по сбору долгов: Повышает разборчивость в регулируемых, ответственных звонках (например, KYC, разговоры о кредитах/сборах), где распространены шумные среды и перекрытие говорящих.

Голосовые помощники в шумных условиях: Помогает помощникам функционировать в кафе, на улицах, в офисах и других реальных условиях, уменьшая окружающий шум и фокусируясь на основном говорящем.

Проверка звонков на соответствие требованиям и контроль качества: Улучшает записанное аудио звонков для более четких аудитов, мониторинга качества и последующей аналитики (резюмирование, определение намерений) за счет улучшения исходного сигнала.

Преимущества

Открытый исходный код (Apache 2.0) и разработан для корпоративного/локального развертывания.

Работа в реальном времени только на CPU с очень низкой задержкой и малым размером модели.

Явный акцент на подавлении конкурирующих фоновых говорящих, что является распространенной проблемой в производственном голосовом ИИ.

Недостатки

Оптимизирован для потокового аудио/аудио звонков с частотой 16 кГц; может потребоваться передискретизация и тщательная интеграция в конвейер для других форматов.

Как модель улучшения речи, она может вносить артефакты или чрезмерно подавлять в условиях экстремального шума/перекрытия в зависимости от входной области.

Наилучшие результаты могут зависеть от правильной покадровой потоковой интеграции (состояние сеанса, размер кадра), а не от простой автономной пакетной обработки.

Как использовать Hush

1) Откройте страницу модели Hush: Перейдите в официальный репозиторий Hugging Face для модели: https://huggingface.co/weya-ai/hush

2) Выберите путь интеграции (быстрая демонстрация или производство): Решите, хотите ли вы (а) попробовать Hush через размещенный интерфейс Hugging Face для быстрого теста или (б) интегрировать его в свой собственный стек голосового ИИ для обработки звонков в реальном времени.

3) Попробуйте Hush в браузере (быстрый тест): На странице модели Hugging Face используйте доступную демонстрацию/виджет (если показан), чтобы запустить пример и сравнить шумный вход с улучшенным выходом.

4) Загрузите активы модели для локального использования: Из файлов репозитория Hugging Face загрузите контрольную точку и/или производственный пакет ONNX (архив ONNX в каталоге onnx/) в зависимости от ваших потребностей во время выполнения.

5) Используйте ONNX для развертывания в реальном времени на CPU: Для производственного использования без PyTorch используйте предварительно собранный пакет ONNX, чтобы Hush мог полностью работать на CPU в реальном времени (модель разработана для обработки кадров ~10 мс с вычислениями менее 1 мс на типичных CPU).

6) Интегрируйте в свой аудиоконвейер на «входе»: Разместите Hush перед ASR/транскрипцией или вашим голосовым агентом, чтобы аудио звонка сначала было улучшено; это улучшает разборчивость и уменьшает фоновый шум и конкурирующую речь, достигающую последующих компонентов.

7) Подавайте аудио в виде потока в реальном времени: Запускайте Hush непрерывно на живых аудиокадрах (например, фрагментах по 10 мс), чтобы поддерживать низкую задержку и поведение в реальном времени для звонков и разговорных систем.

8) Проверьте в целевых средах: Тестируйте в реальных условиях звонков (кафе, улицы, офисный шум, перекрывающиеся говорящие). Обратите внимание, что Hush обучен с фоновыми говорящими при умеренном SIR (около 12–24 дБ), поэтому чрезвычайно громкие конкурирующие говорящие могут быть подавлены не полностью.

9) Поймите, что не следует использовать в качестве вывода: Если вы видите ссылки на «разделяющую головку» или маску фонового говорящего, рассматривайте это как вспомогательный регуляризатор во время обучения (мягкая маска в домене ERB), а не как отдельный вывод разделения источников для производства.

10) Разверните на целевой ОС: Разверните среду выполнения CPU там, где это необходимо (Linux, macOS, включая Apple Silicon, или Windows), используя подход ONNX, чтобы избежать тяжелых производственных зависимостей.

Часто задаваемые вопросы о Hush

Hush – это модель улучшения речи/подавления шума с открытым исходным кодом, созданная для голосового ИИ, которая удаляет фоновый шум и подавляет конкурирующих фоновых говорящих из реальных аудиозаписей звонков.

Видео Hush

Последние ИИ-инструменты, похожие на Hush

EchoWave

FreemiumAI Video Editing Voice & Audio Editing AI Social Media Assistant

EchoWave — это онлайн-платформа для редактирования видео и аудио, которая позволяет создателям преобразовывать аудио контент в привлекательные видео с визуализациями волн, субтитрами и эффектами для распространения в социальных сетях.

AIdeaflow Podcast

FreeAI Podcast Assistant Text to Speech Voice & Audio Editing

AIdeaflow Podcast — это платформа на базе ИИ, которая преобразует текст в увлекательный подкаст-контент с естественными разговорами на более чем 120 голосах и нескольких языках.

TranscribetoText.AI

FreemiumTranscription AI Speech Recognition Voice & Audio Editing

TranscribeToText.AI — это мощная онлайн-служба транскрипции, которая преобразует аудио- и видеофайлы в текст на более чем 120 языках с точностью 99.9%, предлагая неограниченный доступ к транскрипции и гибкие варианты вывода.

Rift Podcast

Free TrialAI Podcast Assistant Text to Speech Voice & Audio Editing

Rift Podcast — это ИИ-технологическое приложение, которое преобразует веб-контент в персонализированные аудиоподкасты, предлагая эксклюзивные инсайты, отобранные из различных технологических платформ и доставляемые ежедневно в течение 15 минут.

Hush