Hush

Hush

WebsiteFreemiumVoice & Audio Editing
Hush — это модель улучшения речи с открытым исходным кодом размером 8 МБ, работающая на CPU в реальном времени, которая подавляет фоновый шум и конкурирующих говорящих для производственных вызовов голосового ИИ менее чем за ~1 мс на 10-миллисекундный кадр.
https://www.weya.ai/hush?ref=producthunt&utm_source=aipure
Hush

Информация о продукте

Обновлено:24/06/2026

Что такое Hush

Hush — это собственная модель подавления шума и улучшения речи с открытым исходным кодом от weya AI, разработанная специально для производственных систем голосового ИИ, таких как телефонные агенты, боты колл-центров, голосовые помощники и конвейеры транскрипции в реальном времени. В отличие от многих моделей улучшения, оптимизированных в основном для общих тестов шума, Hush разработан для реальных звонков, где перекрывающаяся человеческая речь является частой причиной сбоев для ASR и последующего разговорного ИИ. Он легкий (~1,8 млн параметров, ~8 МБ), полностью работает на CPU в реальном времени и распространяется с практическими артефактами развертывания (контрольная точка PyTorch и производственный пакет ONNX) под лицензией Apache 2.0.

Ключевые особенности Hush

Hush – это модель улучшения речи/подавления шума с открытым исходным кодом, разработанная weya AI специально для производственных систем голосового ИИ. Она работает полностью на центральном процессоре с очень низкой задержкой (около 1 мс обработки на 10 мс аудиокадра), имеет небольшой размер (~8 МБ, ~1,8 млн параметров) и обучена на более чем 10 000 часах смешанного зашумленного аудио с сильным акцентом на подавление конкурирующих фоновых говорящих (перекрывающаяся речь) в дополнение к типичному окружающему шуму. Она не зависит от языка (работает с акустическими характеристиками), является причинной/потоковой и может быть развернута с помощью производственного пакета ONNX или предварительно собранных автономных бинарных файлов для распространенных ОС, что упрощает интеграцию в голосовые конвейеры.
Подавление фонового говорящего: Предназначен для изоляции основного звонящего и уменьшения конкурирующих человеческих голосов (распространенный режим отказа для голосовых агентов и ASR), а не только стационарного шума.
Производительность CPU в реальном времени: Обрабатывает аудиокадры достаточно быстро для живых звонков (заявлено менее ~1 мс на 10 мс аудио) без необходимости использования GPU.
Легкий вес: Малый размер модели (~8 МБ; ~1,8 млн параметров) делает ее практичной для локальных и периферийных развертываний с ограниченными ресурсами.
Ориентированные на производство варианты развертывания: Поставляется с производственным пакетом ONNX и автономной библиотекой для прямой интеграции в C/C++/Python, с предварительно собранными бинарными файлами для Linux, macOS (Apple Silicon) и Windows.
Обучен на крупномасштабных реальных зашумленных данных: Обучен на более чем 10 000 часах смешанного аудио; большая часть включает перекрывающихся говорящих на умеренных уровнях SIR, что повышает надежность в реальных звонках.
Языково-независимое улучшение: Работает на разных языках, потому что улучшает качество акустического сигнала, а не полагается на лингвистическое содержание.

Варианты использования Hush

Голосовые агенты колл-центров и IVR: Очищает зашумленное телефонное аудио и подавляет фоновые разговоры/телевизор для улучшения понимания агентом, уменьшения повторных запросов и стабилизации производительности сквозного голосового бота.
Конвейеры транскрипции в реальном времени: Повышает точность ASR в живых или записанных разговорах за счет улучшения четкости речи и уменьшения помех от шума и перекрывающихся говорящих.
Онбординг клиентов BFSI, продажи и звонки по сбору долгов: Повышает разборчивость в регулируемых, ответственных звонках (например, KYC, разговоры о кредитах/сборах), где распространены шумные среды и перекрытие говорящих.
Голосовые помощники в шумных условиях: Помогает помощникам функционировать в кафе, на улицах, в офисах и других реальных условиях, уменьшая окружающий шум и фокусируясь на основном говорящем.
Проверка звонков на соответствие требованиям и контроль качества: Улучшает записанное аудио звонков для более четких аудитов, мониторинга качества и последующей аналитики (резюмирование, определение намерений) за счет улучшения исходного сигнала.

Преимущества

Открытый исходный код (Apache 2.0) и разработан для корпоративного/локального развертывания.
Работа в реальном времени только на CPU с очень низкой задержкой и малым размером модели.
Явный акцент на подавлении конкурирующих фоновых говорящих, что является распространенной проблемой в производственном голосовом ИИ.

Недостатки

Оптимизирован для потокового аудио/аудио звонков с частотой 16 кГц; может потребоваться передискретизация и тщательная интеграция в конвейер для других форматов.
Как модель улучшения речи, она может вносить артефакты или чрезмерно подавлять в условиях экстремального шума/перекрытия в зависимости от входной области.
Наилучшие результаты могут зависеть от правильной покадровой потоковой интеграции (состояние сеанса, размер кадра), а не от простой автономной пакетной обработки.

Как использовать Hush

1) Откройте страницу модели Hush: Перейдите в официальный репозиторий Hugging Face для модели: https://huggingface.co/weya-ai/hush
2) Выберите путь интеграции (быстрая демонстрация или производство): Решите, хотите ли вы (а) попробовать Hush через размещенный интерфейс Hugging Face для быстрого теста или (б) интегрировать его в свой собственный стек голосового ИИ для обработки звонков в реальном времени.
3) Попробуйте Hush в браузере (быстрый тест): На странице модели Hugging Face используйте доступную демонстрацию/виджет (если показан), чтобы запустить пример и сравнить шумный вход с улучшенным выходом.
4) Загрузите активы модели для локального использования: Из файлов репозитория Hugging Face загрузите контрольную точку и/или производственный пакет ONNX (архив ONNX в каталоге onnx/) в зависимости от ваших потребностей во время выполнения.
5) Используйте ONNX для развертывания в реальном времени на CPU: Для производственного использования без PyTorch используйте предварительно собранный пакет ONNX, чтобы Hush мог полностью работать на CPU в реальном времени (модель разработана для обработки кадров ~10 мс с вычислениями менее 1 мс на типичных CPU).
6) Интегрируйте в свой аудиоконвейер на «входе»: Разместите Hush перед ASR/транскрипцией или вашим голосовым агентом, чтобы аудио звонка сначала было улучшено; это улучшает разборчивость и уменьшает фоновый шум и конкурирующую речь, достигающую последующих компонентов.
7) Подавайте аудио в виде потока в реальном времени: Запускайте Hush непрерывно на живых аудиокадрах (например, фрагментах по 10 мс), чтобы поддерживать низкую задержку и поведение в реальном времени для звонков и разговорных систем.
8) Проверьте в целевых средах: Тестируйте в реальных условиях звонков (кафе, улицы, офисный шум, перекрывающиеся говорящие). Обратите внимание, что Hush обучен с фоновыми говорящими при умеренном SIR (около 12–24 дБ), поэтому чрезвычайно громкие конкурирующие говорящие могут быть подавлены не полностью.
9) Поймите, что не следует использовать в качестве вывода: Если вы видите ссылки на «разделяющую головку» или маску фонового говорящего, рассматривайте это как вспомогательный регуляризатор во время обучения (мягкая маска в домене ERB), а не как отдельный вывод разделения источников для производства.
10) Разверните на целевой ОС: Разверните среду выполнения CPU там, где это необходимо (Linux, macOS, включая Apple Silicon, или Windows), используя подход ONNX, чтобы избежать тяжелых производственных зависимостей.

Часто задаваемые вопросы о Hush

Hush – это модель улучшения речи/подавления шума с открытым исходным кодом, созданная для голосового ИИ, которая удаляет фоновый шум и подавляет конкурирующих фоновых говорящих из реальных аудиозаписей звонков.

Последние ИИ-инструменты, похожие на Hush

EchoWave
EchoWave
EchoWave — это онлайн-платформа для редактирования видео и аудио, которая позволяет создателям преобразовывать аудио контент в привлекательные видео с визуализациями волн, субтитрами и эффектами для распространения в социальных сетях.
AIdeaflow Podcast
AIdeaflow Podcast
AIdeaflow Podcast — это платформа на базе ИИ, которая преобразует текст в увлекательный подкаст-контент с естественными разговорами на более чем 120 голосах и нескольких языках.
TranscribetoText.AI
TranscribetoText.AI
TranscribeToText.AI — это мощная онлайн-служба транскрипции, которая преобразует аудио- и видеофайлы в текст на более чем 120 языках с точностью 99.9%, предлагая неограниченный доступ к транскрипции и гибкие варианты вывода.
Rift Podcast
Rift Podcast
Rift Podcast — это ИИ-технологическое приложение, которое преобразует веб-контент в персонализированные аудиоподкасты, предлагая эксклюзивные инсайты, отобранные из различных технологических платформ и доставляемые ежедневно в течение 15 минут.