
LocalClicky
LocalClicky — это полностью автономный голосовой помощник macOS, который использует локальную транскрипцию Whisper, локальные LLM Ollama (включая зрение) и PyAutoGUI для управления вашим Mac, перемещения/нажатия курсора и выполнения команд без отправки ваших данных в облако.
https://github.com/dikshantrajput/LocalClicky?ref=producthunt&utm_source=aipure

Информация о продукте
Обновлено:08/06/2026
Что такое LocalClicky
LocalClicky — это приложение с открытым исходным кодом для macOS, которое позволяет управлять компьютером голосом, сохраняя при этом ваш голос, скриншоты и команды полностью на устройстве. Оно разработано как альтернатива облачным голосовым помощникам с приоритетом конфиденциальности: без ключей API, без подписок и без внешней облачной обработки для транскрипции или рассуждений. Вы можете использовать его для открытия и закрытия приложений, настройки системных параметров, управления Spotify, управления файлами, выполнения команд оболочки, создания напоминаний и даже взаимодействия с элементами пользовательского интерфейса на экране с помощью кликов на основе зрения — и все это из легкого приложения в строке меню, которое не мешает работе.
Ключевые особенности LocalClicky
LocalClicky — это автономный голосовой помощник для macOS, работающий из строки меню, который позволяет управлять Mac с помощью голосовых команд, сохраняя при этом голос, снимки экрана и контекст команд на устройстве. Он использует whisper.cpp для локальной транскрипции, Ollama (например, qwen3 для вызова инструментов и gemma4 для распознавания изображений) для рассуждений и понимания экрана, а также автоматизацию macOS/Python (AppleScript, shell, PyAutoGUI) для выполнения таких действий, как открытие приложений, управление файлами, управление Spotify, создание напоминаний и нажатие элементов пользовательского интерфейса на основе того, что находится на вашем экране. Он поддерживает многошаговые рабочие процессы на основе сеансов с обнаружением голосовой активности, опциональным "видением" экрана по запросу и кратковременной разговорной памятью.
Полностью локальная обработка (приоритет конфиденциальности): Транскрипция (whisper.cpp), рассуждения/распознавание (модели Ollama) и выполнение происходят на вашей машине — никаких облачных API, никаких ключей API и никаких подписок для основной функциональности.
Компаньон в строке меню с режимом сеанса: Работает тихо как приложение в строке меню (без значка в Dock) и поддерживает фразу активации ("Компьютер") для начала сеанса, затем принимает последовательные команды, пока вы не закроете его или не истечет время.
Запись с обнаружением голосовой активности (VAD): Автоматически останавливает запись, когда вы перестаете говорить (с webrtcvad), избегая записей фиксированной длительности и ускоряя обработку команд.
Распознавание экрана по запросу + нажатие элементов пользовательского интерфейса: При необходимости он делает снимок экрана, использует модель распознавания для определения элементов пользовательского интерфейса и перемещает/нажимает курсор, используя ограничивающие рамки для таких действий, как "нажать колокольчик уведомлений".
Автоматизация Mac на основе инструментов: Может запускать команды оболочки, запрашивать состояние системы, автоматизировать приложения через AppleScript (например, Spotify/Chrome), управлять файлами и создавать напоминания из естественного языка.
Многоразовый вызов инструментов с проверкой: Выполняет многошаговые рабочие процессы (до нескольких раундов инструментов), проверяет результаты и может подтверждать или повторять действия для более надежного выполнения задач.
Варианты использования LocalClicky
Свободная от рук производительность для работников умственного труда: Открывайте/закрывайте приложения, управляйте вкладками, настраивайте системные параметры, создавайте напоминания и запускайте быстрые рабочие процессы голосом, оставаясь сосредоточенными на текущей задаче.
Доступность и уменьшенное взаимодействие с мышью: Помогает пользователям, которым полезно голосовое управление, позволяя перемещать/нажимать курсор и выполнять общие действия ОС/приложений без постоянной ручной навигации.
Автоматизация для разработчиков и ИТ на рабочей станции: Запускайте команды оболочки, запрашивайте системную информацию, управляйте файлами и организуйте рутинную настройку/диагностику с помощью голоса, все локально для конфиденциальных сред.
Руководство по творческому программному обеспечению и навигация по пользовательскому интерфейсу: Используйте экранное наведение/нажатие для навигации по сложным пользовательским интерфейсам (например, инструменты для дизайна/видео) и более быстрого выполнения повторяющихся действий интерфейса.
Рабочие процессы, чувствительные к конфиденциальности (регулируемые или конфиденциальные): Подходит для сценариев, когда данные экрана/аудио не должны покидать устройство, поскольку транскрипция и распознавание могут выполняться локально и не требуются облачные ключи.
Преимущества
Приоритет конфиденциальности: голос, снимки экрана и команды предназначены для хранения на устройстве (без облачных API для основного конвейера).
Широкий контроль Mac: сочетает голосовую транскрипцию, вызов инструментов локальной LLM и автоматизацию (shell/AppleScript/PyAutoGUI) для практических задач.
Взаимодействие на основе сеансов: поддерживает цепочки команд без повторения ключевого слова, улучшая удобство использования для многошаговой работы.
Недостатки
Обнаружение ключевого слова требует интернета (использует Google Speech Recognition), поэтому по умолчанию оно не является полностью автономным.
Требуются разрешения macOS (Микрофон, Запись экрана, Доступность), что может быть препятствием при настройке в управляемых средах.
Нажатие на основе зрения может быть неточным в зависимости от модели/интерфейса, а сложные задачи могут превысить лимиты раундов инструментов.
Как использовать LocalClicky
1) Подтвердите требования: Используйте macOS 12+, Python 3.11+, Homebrew и достаточно свободной оперативной памяти (~8 ГБ+). Вам также потребуется запущенный локально Ollama. Примечание: обнаружение ключевого слова по умолчанию использует Google Speech Recognition, поэтому для функции ключевого слова требуется подключение к Интернету.
2) Установите Whisper.cpp (локальная транскрипция): Запустите: `brew install whisper-cpp`
3) Загрузите файл модели Whisper: Запустите:
`mkdir -p /opt/homebrew/share/whisper-cpp/models`
`curl -L -o /opt/homebrew/share/whisper-cpp/models/ggml-base.en.bin "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-base.en.bin"`
4) Установите Ollama (локальный LLM + зрение): Запустите: `brew install ollama`
5) Запустите сервер Ollama: Запустите: `ollama serve` (оставьте его запущенным).
6) Загрузите модели LocalClicky по умолчанию: Запустите:
`ollama pull qwen3:8b` (модель для команд/вызова инструментов)
`ollama pull gemma4:e4b` (модель зрения, используемая для понимания экрана)
7) Настройте среду Python: Из репозитория перейдите в папку приложения и создайте venv:
`cd PyClicky`
`python3 -m venv venv`
`source venv/bin/activate`
`pip install -r requirements.txt`
8) (Необязательно) Установите обнаружение тишины для лучшего поведения остановки записи: Установите VAD, чтобы запись автоматически останавливалась, когда вы перестаете говорить:
`pip install webrtcvad-wheels`
Без этого запись будет ограничена 30 секундами.
9) Запустите LocalClicky: Из `PyClicky/` с активным venv:
`source venv/bin/activate`
При необходимости запустите Ollama в фоновом режиме: `ollama serve &`
Затем запустите: `python main.py`
LocalClicky появится в строке меню macOS (без значка в Dock).
10) Предоставьте разрешения macOS (однократно): Предоставьте разрешения двоичному файлу Python venv (`/path/to/PyClicky/venv/bin/python3`) или Терминалу (чтобы Python унаследовал их):
- Микрофон: запрос при первом запуске
- Запись экрана: Системные настройки → Конфиденциальность и безопасность → Запись экрана
- Доступность: Системные настройки → Конфиденциальность и безопасность → Доступность
Они необходимы для голосового ввода, скриншотов для зрения и управления курсором/кликами.
11) Начните голосовую сессию (ключевое слово): Скажите «Компьютер», чтобы начать сессию. LocalClicky начнет запись, затем автоматически остановится, когда вы перестанете говорить (если установлен VAD), транскрибирует локально и ответит.
12) Продолжайте отдавать команды, не повторяя ключевое слово: После ответа LocalClicky остается в активной сессии и немедленно слушает вашу следующую команду (вам не нужно снова говорить «Компьютер»).
13) Используйте команды, зависящие от экрана (зрение + управление курсором): Попросите его взаимодействовать с элементами пользовательского интерфейса, например: «Нажмите на колокольчик уведомлений». LocalClicky сделает скриншот (через `screencapture`), отправит его локальной модели зрения, получит ограничивающую рамку и нажмет на центр с помощью PyAutoGUI.
14) Попробуйте общие примеры команд: Примеры из проекта:
- «Открой Spotify и включи хип-хоп»
- «Установи громкость на 50 процентов»
- «Открой новую вкладку в Chrome»
- «Создай папку под названием Проекты на моем Рабочем столе»
- «Что на моем экране?»
- «Создай напоминание позвонить Джону завтра в 9 утра»
15) Завершите сессию: Скажите «пока», «до свидания», «прекрати слушать», «иди спать» или «это все». Сессия также автоматически истекает после ~25 секунд тишины (по умолчанию).
16) (Необязательно) Настройте модели: Отредактируйте `PyClicky/ollama_client.py`:
- `COMMAND_MODEL = "qwen3:8b"`
- `VISION_MODEL = "gemma4:e4b"`
Затем загрузите любую новую модель, которую вы выберете, с помощью `ollama pull ...`.
17) (Необязательно) Настройте ключевое слово и тайм-ауты: Отредактируйте:
- `PyClicky/wake_word.py` → `WAKE_PHRASES = [...]`
- `PyClicky/companion.py` → `SESSION_IDLE_TIMEOUT = 25.0`
18) Быстро устраните неполадки, если что-то не работает: Распространенные исправления:
- Ключевое слово никогда не срабатывает: ключевое слово использует Google Speech Recognition; убедитесь в наличии интернета и проверьте логи на наличие `heard:`.
- Скриншот не удается: предоставьте разрешение на запись экрана; протестируйте `screencapture -x -t jpg /tmp/test.jpg`.
- Курсор не двигается: предоставьте разрешение на доступность.
- Запись никогда не останавливается: установите `webrtcvad-wheels`.
- Ошибки Ollama: убедитесь, что модели существуют с помощью `ollama list`, перезапустите `ollama serve`.
Часто задаваемые вопросы о LocalClicky
LocalClicky — это приложение для macOS, расположенное в строке меню, которое позволяет управлять Mac с помощью голоса, сохраняя при этом все данные в автономном режиме. Оно использует локальную транскрипцию (Whisper.cpp), локальное AI-распознавание/зрение (модели Ollama, такие как qwen3 и gemma4), встроенный в macOS синтез речи (`say`) и PyAutoGUI для управления курсором/кликами.
Видео LocalClicky
Популярные статьи

Atoms: Мультиагентная ИИ-платформа, которая превращает идеи в готовые к запуску продукты
May 22, 2026

Nano Banana SBTI: Что это такое, как это работает и как это использовать в 2026 году
Apr 15, 2026

Обзор Atoms — AI Product Builder, переопределяющий цифровое творчество в 2026 году
Apr 10, 2026

Kilo Claw: Как развернуть и использовать настоящего AI-агента "Сделай-Это-За-Вас" (Обновление 2026)
Apr 3, 2026







