LocalClicky

LocalClicky

LocalClicky — это полностью автономный голосовой помощник macOS, который использует локальную транскрипцию Whisper, локальные LLM Ollama (включая зрение) и PyAutoGUI для управления вашим Mac, перемещения/нажатия курсора и выполнения команд без отправки ваших данных в облако.
https://github.com/dikshantrajput/LocalClicky?ref=producthunt&utm_source=aipure
LocalClicky

Информация о продукте

Обновлено:08/06/2026

Что такое LocalClicky

LocalClicky — это приложение с открытым исходным кодом для macOS, которое позволяет управлять компьютером голосом, сохраняя при этом ваш голос, скриншоты и команды полностью на устройстве. Оно разработано как альтернатива облачным голосовым помощникам с приоритетом конфиденциальности: без ключей API, без подписок и без внешней облачной обработки для транскрипции или рассуждений. Вы можете использовать его для открытия и закрытия приложений, настройки системных параметров, управления Spotify, управления файлами, выполнения команд оболочки, создания напоминаний и даже взаимодействия с элементами пользовательского интерфейса на экране с помощью кликов на основе зрения — и все это из легкого приложения в строке меню, которое не мешает работе.

Ключевые особенности LocalClicky

LocalClicky — это автономный голосовой помощник для macOS, работающий из строки меню, который позволяет управлять Mac с помощью голосовых команд, сохраняя при этом голос, снимки экрана и контекст команд на устройстве. Он использует whisper.cpp для локальной транскрипции, Ollama (например, qwen3 для вызова инструментов и gemma4 для распознавания изображений) для рассуждений и понимания экрана, а также автоматизацию macOS/Python (AppleScript, shell, PyAutoGUI) для выполнения таких действий, как открытие приложений, управление файлами, управление Spotify, создание напоминаний и нажатие элементов пользовательского интерфейса на основе того, что находится на вашем экране. Он поддерживает многошаговые рабочие процессы на основе сеансов с обнаружением голосовой активности, опциональным "видением" экрана по запросу и кратковременной разговорной памятью.
Полностью локальная обработка (приоритет конфиденциальности): Транскрипция (whisper.cpp), рассуждения/распознавание (модели Ollama) и выполнение происходят на вашей машине — никаких облачных API, никаких ключей API и никаких подписок для основной функциональности.
Компаньон в строке меню с режимом сеанса: Работает тихо как приложение в строке меню (без значка в Dock) и поддерживает фразу активации ("Компьютер") для начала сеанса, затем принимает последовательные команды, пока вы не закроете его или не истечет время.
Запись с обнаружением голосовой активности (VAD): Автоматически останавливает запись, когда вы перестаете говорить (с webrtcvad), избегая записей фиксированной длительности и ускоряя обработку команд.
Распознавание экрана по запросу + нажатие элементов пользовательского интерфейса: При необходимости он делает снимок экрана, использует модель распознавания для определения элементов пользовательского интерфейса и перемещает/нажимает курсор, используя ограничивающие рамки для таких действий, как "нажать колокольчик уведомлений".
Автоматизация Mac на основе инструментов: Может запускать команды оболочки, запрашивать состояние системы, автоматизировать приложения через AppleScript (например, Spotify/Chrome), управлять файлами и создавать напоминания из естественного языка.
Многоразовый вызов инструментов с проверкой: Выполняет многошаговые рабочие процессы (до нескольких раундов инструментов), проверяет результаты и может подтверждать или повторять действия для более надежного выполнения задач.

Варианты использования LocalClicky

Свободная от рук производительность для работников умственного труда: Открывайте/закрывайте приложения, управляйте вкладками, настраивайте системные параметры, создавайте напоминания и запускайте быстрые рабочие процессы голосом, оставаясь сосредоточенными на текущей задаче.
Доступность и уменьшенное взаимодействие с мышью: Помогает пользователям, которым полезно голосовое управление, позволяя перемещать/нажимать курсор и выполнять общие действия ОС/приложений без постоянной ручной навигации.
Автоматизация для разработчиков и ИТ на рабочей станции: Запускайте команды оболочки, запрашивайте системную информацию, управляйте файлами и организуйте рутинную настройку/диагностику с помощью голоса, все локально для конфиденциальных сред.
Руководство по творческому программному обеспечению и навигация по пользовательскому интерфейсу: Используйте экранное наведение/нажатие для навигации по сложным пользовательским интерфейсам (например, инструменты для дизайна/видео) и более быстрого выполнения повторяющихся действий интерфейса.
Рабочие процессы, чувствительные к конфиденциальности (регулируемые или конфиденциальные): Подходит для сценариев, когда данные экрана/аудио не должны покидать устройство, поскольку транскрипция и распознавание могут выполняться локально и не требуются облачные ключи.

Преимущества

Приоритет конфиденциальности: голос, снимки экрана и команды предназначены для хранения на устройстве (без облачных API для основного конвейера).
Широкий контроль Mac: сочетает голосовую транскрипцию, вызов инструментов локальной LLM и автоматизацию (shell/AppleScript/PyAutoGUI) для практических задач.
Взаимодействие на основе сеансов: поддерживает цепочки команд без повторения ключевого слова, улучшая удобство использования для многошаговой работы.

Недостатки

Обнаружение ключевого слова требует интернета (использует Google Speech Recognition), поэтому по умолчанию оно не является полностью автономным.
Требуются разрешения macOS (Микрофон, Запись экрана, Доступность), что может быть препятствием при настройке в управляемых средах.
Нажатие на основе зрения может быть неточным в зависимости от модели/интерфейса, а сложные задачи могут превысить лимиты раундов инструментов.

Как использовать LocalClicky

1) Подтвердите требования: Используйте macOS 12+, Python 3.11+, Homebrew и достаточно свободной оперативной памяти (~8 ГБ+). Вам также потребуется запущенный локально Ollama. Примечание: обнаружение ключевого слова по умолчанию использует Google Speech Recognition, поэтому для функции ключевого слова требуется подключение к Интернету.
2) Установите Whisper.cpp (локальная транскрипция): Запустите: `brew install whisper-cpp`
3) Загрузите файл модели Whisper: Запустите: `mkdir -p /opt/homebrew/share/whisper-cpp/models` `curl -L -o /opt/homebrew/share/whisper-cpp/models/ggml-base.en.bin "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-base.en.bin"`
4) Установите Ollama (локальный LLM + зрение): Запустите: `brew install ollama`
5) Запустите сервер Ollama: Запустите: `ollama serve` (оставьте его запущенным).
6) Загрузите модели LocalClicky по умолчанию: Запустите: `ollama pull qwen3:8b` (модель для команд/вызова инструментов) `ollama pull gemma4:e4b` (модель зрения, используемая для понимания экрана)
7) Настройте среду Python: Из репозитория перейдите в папку приложения и создайте venv: `cd PyClicky` `python3 -m venv venv` `source venv/bin/activate` `pip install -r requirements.txt`
8) (Необязательно) Установите обнаружение тишины для лучшего поведения остановки записи: Установите VAD, чтобы запись автоматически останавливалась, когда вы перестаете говорить: `pip install webrtcvad-wheels` Без этого запись будет ограничена 30 секундами.
9) Запустите LocalClicky: Из `PyClicky/` с активным venv: `source venv/bin/activate` При необходимости запустите Ollama в фоновом режиме: `ollama serve &` Затем запустите: `python main.py` LocalClicky появится в строке меню macOS (без значка в Dock).
10) Предоставьте разрешения macOS (однократно): Предоставьте разрешения двоичному файлу Python venv (`/path/to/PyClicky/venv/bin/python3`) или Терминалу (чтобы Python унаследовал их): - Микрофон: запрос при первом запуске - Запись экрана: Системные настройки → Конфиденциальность и безопасность → Запись экрана - Доступность: Системные настройки → Конфиденциальность и безопасность → Доступность Они необходимы для голосового ввода, скриншотов для зрения и управления курсором/кликами.
11) Начните голосовую сессию (ключевое слово): Скажите «Компьютер», чтобы начать сессию. LocalClicky начнет запись, затем автоматически остановится, когда вы перестанете говорить (если установлен VAD), транскрибирует локально и ответит.
12) Продолжайте отдавать команды, не повторяя ключевое слово: После ответа LocalClicky остается в активной сессии и немедленно слушает вашу следующую команду (вам не нужно снова говорить «Компьютер»).
13) Используйте команды, зависящие от экрана (зрение + управление курсором): Попросите его взаимодействовать с элементами пользовательского интерфейса, например: «Нажмите на колокольчик уведомлений». LocalClicky сделает скриншот (через `screencapture`), отправит его локальной модели зрения, получит ограничивающую рамку и нажмет на центр с помощью PyAutoGUI.
14) Попробуйте общие примеры команд: Примеры из проекта: - «Открой Spotify и включи хип-хоп» - «Установи громкость на 50 процентов» - «Открой новую вкладку в Chrome» - «Создай папку под названием Проекты на моем Рабочем столе» - «Что на моем экране?» - «Создай напоминание позвонить Джону завтра в 9 утра»
15) Завершите сессию: Скажите «пока», «до свидания», «прекрати слушать», «иди спать» или «это все». Сессия также автоматически истекает после ~25 секунд тишины (по умолчанию).
16) (Необязательно) Настройте модели: Отредактируйте `PyClicky/ollama_client.py`: - `COMMAND_MODEL = "qwen3:8b"` - `VISION_MODEL = "gemma4:e4b"` Затем загрузите любую новую модель, которую вы выберете, с помощью `ollama pull ...`.
17) (Необязательно) Настройте ключевое слово и тайм-ауты: Отредактируйте: - `PyClicky/wake_word.py` → `WAKE_PHRASES = [...]` - `PyClicky/companion.py` → `SESSION_IDLE_TIMEOUT = 25.0`
18) Быстро устраните неполадки, если что-то не работает: Распространенные исправления: - Ключевое слово никогда не срабатывает: ключевое слово использует Google Speech Recognition; убедитесь в наличии интернета и проверьте логи на наличие `heard:`. - Скриншот не удается: предоставьте разрешение на запись экрана; протестируйте `screencapture -x -t jpg /tmp/test.jpg`. - Курсор не двигается: предоставьте разрешение на доступность. - Запись никогда не останавливается: установите `webrtcvad-wheels`. - Ошибки Ollama: убедитесь, что модели существуют с помощью `ollama list`, перезапустите `ollama serve`.

Часто задаваемые вопросы о LocalClicky

LocalClicky — это приложение для macOS, расположенное в строке меню, которое позволяет управлять Mac с помощью голоса, сохраняя при этом все данные в автономном режиме. Оно использует локальную транскрипцию (Whisper.cpp), локальное AI-распознавание/зрение (модели Ollama, такие как qwen3 и gemma4), встроенный в macOS синтез речи (`say`) и PyAutoGUI для управления курсором/кликами.

Последние ИИ-инструменты, похожие на LocalClicky

Advanced Voice
Advanced Voice
Advanced Voice - это передовая функция голосового взаимодействия ChatGPT, которая позволяет вести реальные, естественные голосовые разговоры с пользовательскими инструкциями, множеством вариантов голосов и улучшенными акцентами для бесшовной коммуникации человека и ИИ.
Vagent
Vagent
Vagent - это легкий голосовой интерфейс, который позволяет пользователям взаимодействовать с индивидуальными ИИ-агентами через голосовые команды, предоставляя естественный и интуитивно понятный способ управления автоматизацией с поддержкой более 60 языков.
Vapify
Vapify
Vapify — это платформа с белой маркировкой, которая позволяет агентствам предлагать решения Vapi.ai по голосовому ИИ под собственной маркой, сохраняя контроль над клиентскими отношениями и максимизируя доход.
Wedding Speech Genie
Wedding Speech Genie
Wedding Speech Genie — это платформа на основе ИИ, которая создает личные свадебные речи за минуты, генерируя 3 настраиваемые версии на основе ваших данных, помогая выступающим произносить запоминающиеся тосты для любой роли на свадьбе.