LocalClicky

LocalClicky

LocalClicky 是一款完全离线的 macOS 语音助手,它使用本地 Whisper 转录、本地 Ollama LLM(包括视觉)和 PyAutoGUI 来控制您的 Mac、移动/点击光标并运行命令,而无需将您的数据发送到云端。
https://github.com/dikshantrajput/LocalClicky?ref=producthunt&utm_source=aipure
LocalClicky

产品信息

更新于:2026年06月08日

什么是 LocalClicky

LocalClicky 是一款适用于 macOS 的开源菜单栏应用程序,可让您通过语音控制计算机,同时将您的语音、屏幕截图和命令完全保留在设备上。它被设计为云语音助手的隐私优先替代方案:没有 API 密钥、没有订阅,也没有用于转录或推理的外部云处理。您可以使用它来打开和退出应用程序、调整系统设置、控制 Spotify、管理文件、运行 shell 命令、创建提醒,甚至通过基于视觉的点击与屏幕 UI 元素进行交互——所有这些都通过一个轻量级的菜单栏存在,不会妨碍您。

LocalClicky 的主要功能

LocalClicky 是一款离线优先的 macOS 菜单栏语音助手,它允许您通过语音命令控制您的 Mac,同时将语音、屏幕截图和命令上下文保留在设备上。它使用 whisper.cpp 进行本地转录,使用 Ollama(例如,qwen3 用于工具调用,gemma4 用于视觉)进行推理和屏幕理解,并使用 macOS/Python 自动化(AppleScript、shell、PyAutoGUI)来执行操作,例如打开应用程序、管理文件、控制 Spotify、创建提醒以及根据屏幕上的内容点击 UI 元素。它支持基于会话的多步骤工作流程,具有语音活动检测、可选的按需屏幕“视觉”和短期对话记忆。
完全本地处理(隐私优先): 转录 (whisper.cpp)、推理/视觉 (Ollama 模型) 和执行都在您的机器上进行——没有云 API,没有 API 密钥,核心功能无需订阅。
带会话模式的菜单栏伴侣: 作为菜单栏应用程序安静运行(无 Dock 图标),并支持唤醒短语(“Computer”)来启动会话,然后接受连续命令,直到您关闭它或它超时。
语音活动检测 (VAD) 录音: 当您停止说话时(使用 webrtcvad)自动停止录音,避免固定持续时间的录音并加快命令周转时间。
按需屏幕视觉 + UI 点击: 在需要时,它会捕获屏幕截图,使用视觉模型定位 UI 元素,并使用边界框移动/点击光标,以执行“点击通知铃铛”等操作。
基于工具的 Mac 自动化: 可以运行 shell 命令、查询系统状态、通过 AppleScript 自动化应用程序(例如 Spotify/Chrome)、管理文件以及从自然语言创建提醒。
带验证的多轮工具调用: 执行多步骤工作流程(最多几轮工具),检查结果,并可以确认或重试操作以更可靠地完成任务。

LocalClicky 的使用场景

知识工作者的免提生产力: 通过语音打开/退出应用程序、管理标签页、调整系统设置、创建提醒并运行快速工作流程,同时专注于当前任务。
辅助功能和减少鼠标交互: 通过启用光标移动/点击和常见的操作系统/应用程序操作,无需持续手动导航,帮助受益于语音驱动控制的用户。
工作站上的开发人员和 IT 自动化: 通过语音触发 shell 命令、查询系统信息、管理文件以及协调例行设置/诊断,所有这些都在本地进行,适用于敏感环境。
创意软件指导和 UI 导航: 使用屏幕感知的指向/点击来导航复杂的 UI(例如,设计/视频工具)并更快地执行重复的界面操作。
隐私敏感型工作流程(受监管或机密): 适用于屏幕/音频数据不得离开设备的场景,因为转录和视觉可以在本地运行,并且不需要云密钥。

优点

隐私优先:语音、屏幕截图和命令旨在保留在设备上(核心管道没有云 API)。
广泛的 Mac 控制:结合了语音转录、本地 LLM 工具调用和自动化(shell/AppleScript/PyAutoGUI)以完成实际任务。
基于会话的交互:支持无需重复唤醒词的链式命令,提高了多步骤工作的可用性。

缺点

唤醒词检测需要互联网(使用 Google 语音识别),因此默认情况下它并非完全离线。
需要 macOS 权限(麦克风、屏幕录制、辅助功能),这在受管环境中可能是一个设置障碍。
基于视觉的点击可能不精确,具体取决于模型/UI,复杂任务可能会达到工具轮次限制。

如何使用 LocalClicky

1) 确认要求: 使用 macOS 12+、Python 3.11+、Homebrew 和足够的空闲 RAM(约 8GB+)。您还需要在本地运行 Ollama。注意:默认的唤醒词检测使用 Google 语音识别,因此唤醒词功能需要互联网连接。
2) 安装 Whisper.cpp(本地转录): 运行:`brew install whisper-cpp`
3) 下载 Whisper 模型文件: 运行: `mkdir -p /opt/homebrew/share/whisper-cpp/models` `curl -L -o /opt/homebrew/share/whisper-cpp/models/ggml-base.en.bin "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-base.en.bin"`
4) 安装 Ollama(本地 LLM + 视觉): 运行:`brew install ollama`
5) 启动 Ollama 服务器: 运行:`ollama serve`(保持运行)。
6) 拉取默认的 LocalClicky 模型: 运行: `ollama pull qwen3:8b`(命令/工具调用模型) `ollama pull gemma4:e4b`(用于屏幕理解的视觉模型)
7) 设置 Python 环境: 从仓库进入 app 文件夹并创建一个 venv: `cd PyClicky` `python3 -m venv venv` `source venv/bin/activate` `pip install -r requirements.txt`
8) (可选) 安装静音检测以获得更好的录音停止行为: 安装 VAD,以便在您停止说话时自动停止录音: `pip install webrtcvad-wheels` 如果没有这个,录音将回退到 30 秒的硬上限。
9) 运行 LocalClicky: 在 `PyClicky/` 中激活 venv: `source venv/bin/activate` 如果需要,在后台启动 Ollama:`ollama serve &` 然后运行:`python main.py` LocalClicky 出现在 macOS 菜单栏中(没有 Dock 图标)。
10) 授予 macOS 权限(一次性): 授予 venv Python 二进制文件(`/path/to/PyClicky/venv/bin/python3`)或 Terminal 权限(以便 Python 继承它们): - 麦克风:首次运行时提示 - 屏幕录制:系统设置 → 隐私与安全 → 屏幕录制 - 辅助功能:系统设置 → 隐私与安全 → 辅助功能 这些是语音输入、视觉屏幕截图以及光标/点击控制所必需的。
11) 启动语音会话(唤醒词): 说“Computer”开始会话。LocalClicky 开始录音,然后在您停止说话时自动停止(如果安装了 VAD),在本地转录,并响应。
12) 继续发出命令,无需重复唤醒词: 响应后,LocalClicky 保持活动会话并立即监听您的下一个命令(您无需再次说“Computer”)。
13) 使用屏幕感知命令(视觉 + 光标控制): 要求它与 UI 元素交互,例如“Click the notification bell.”LocalClicky 将截取屏幕截图(通过 `screencapture`),将其发送到本地视觉模型,接收边界框,并使用 PyAutoGUI 点击中心。
14) 尝试常见的示例命令: 项目中的示例: - “Open Spotify and play hip hop” - “Set volume to 50 percent” - “Open a new tab in Chrome” - “Make a folder called Projects on my Desktop” - “What’s on my screen?” - “Create a reminder to call John tomorrow at 9am”
15) 结束会话: 说“bye”、“goodbye”、“stop listening”、“go to sleep”或“that’s all”。会话也会在约 25 秒的静音后自动过期(默认)。
16) (可选) 自定义模型: 编辑 `PyClicky/ollama_client.py`: - `COMMAND_MODEL = "qwen3:8b"` - `VISION_MODEL = "gemma4:e4b"` 然后通过 `ollama pull ...` 拉取您选择的任何新模型。
17) (可选) 自定义唤醒词和超时: 编辑: - `PyClicky/wake_word.py` → `WAKE_PHRASES = [...]` - `PyClicky/companion.py` → `SESSION_IDLE_TIMEOUT = 25.0`
18) 如果出现故障,请快速排除故障: 常见修复: - 唤醒词从未触发:唤醒词使用 Google 语音识别;确保互联网连接并检查日志中的 `heard:`。 - 屏幕截图失败:授予屏幕录制权限;测试 `screencapture -x -t jpg /tmp/test.jpg`。 - 光标不动:授予辅助功能权限。 - 录音从未停止:安装 `webrtcvad-wheels`。 - Ollama 错误:使用 `ollama list` 确认模型存在,重新启动 `ollama serve`。

LocalClicky 常见问题

LocalClicky 是一款 macOS 菜单栏应用程序,让您可以通过语音控制 Mac,同时所有操作都保持离线。它使用本地转录 (Whisper.cpp)、本地 AI 推理/视觉 (Ollama 模型,如 qwen3 和 gemma4)、macOS 内置文本转语音 (`say`) 和 PyAutoGUI 进行光标/点击控制。

与 LocalClicky 类似的最新 AI 工具

Advanced Voice
Advanced Voice
Advanced Voice 是 ChatGPT 的前沿语音交互功能,支持实时、自然的语音对话,具有自定义指令、多种语音选项和改进的口音,实现无缝的人机通信。
Vagent
Vagent
Vagent是一个轻量级的语音接口,使用户可以通过语音命令与自定义AI代理互动,提供了一种自然和直观的方式来控制自动化,支持60多种语言。
Vapify
Vapify
Vapify 是一个白标平台,使代理机构能够在保持客户关系控制和最大化收入的同时,以自己的品牌提供 Vapi.ai 的语音 AI 解决方案。
Wedding Speech Genie
Wedding Speech Genie
婚礼演讲精灵是一款AI驱动的平台,通过生成3个基于你输入的定制版本,在几分钟内创建个性化的婚礼演讲,帮助演讲者为任何婚礼角色发表难忘的祝酒词。