LocalClicky 会将我的语音、屏幕截图或命令发送到云端吗？

不——它的核心管道设计旨在让您的语音、屏幕截图和命令保留在您的机器上（没有云 API、没有 API 密钥、没有订阅）。但是，默认的唤醒词检测使用 Google 语音识别，因此需要互联网连接。

LocalClicky 可以在我的 Mac 上做什么？

它可以打开/退出应用程序、调整系统音量、控制 Spotify（播放/搜索/跳过/音量）、管理文件和文件夹、运行 shell 命令、将 JavaScript 注入 Chrome、使用自然语言日期创建提醒，并根据屏幕上显示的内容移动/点击鼠标。

我如何开始和结束语音会话？

说“Computer”开始一个会话。它响应后，会保持活动状态，因此您可以发出后续命令而无需重复唤醒词。说“bye”、“goodbye”、“stop listening”、“go to sleep”或“that’s all”来结束；它也会在 25 秒的静默后自动过期。

LocalClicky 如何点击屏幕上的内容？

当命令需要屏幕交互时，它会通过 `screencapture` 截取屏幕截图，调整大小（默认最大宽度 1280px），将其发送到本地视觉模型（默认 gemma4:e4b 通过 Ollama），接收一个边界框，如 [CLICK:x1,y1,x2,y2]，然后计算中心并使用 PyAutoGUI 进行点击。

运行 LocalClicky 的先决条件是什么？

您需要 macOS 12+、Python 3.11+、Homebrew、本地运行的 Ollama 和已安装的 Whisper.cpp（以及一个 Whisper 模型文件）。项目说明需要大约 8GB 的空闲 RAM 来运行模型，以及用于唤醒词检测的互联网连接。

LocalClicky 需要哪些 macOS 权限？

它需要麦克风权限（语音录制）、屏幕录制权限（用于视觉的屏幕截图）和辅助功能权限（光标移动/点击）。这些权限应授予项目 venv 中的 `python3` 二进制文件（如果 Python 不可选，则授予终端）。

我可以更改 LocalClicky 使用的模型吗？

是的。您可以编辑 `ollama_client.py` 来更改命令模型（默认 qwen3:8b）和视觉模型（默认 gemma4:e4b）。命令模型必须支持可靠的工具调用，并且视觉模型必须是多模态的。

LocalClicky

WebsiteFreeAI Voice Assistants

LocalClicky 是一款完全离线的 macOS 语音助手，它使用本地 Whisper 转录、本地 Ollama LLM（包括视觉）和 PyAutoGUI 来控制您的 Mac、移动/点击光标并运行命令，而无需将您的数据发送到云端。

访问网站

推广此工具

https://github.com/dikshantrajput/LocalClicky?ref=producthunt&utm_source=aipure

概述
视频
替代方案

产品信息

更新于：2026年06月08日

什么是 LocalClicky

LocalClicky 是一款适用于 macOS 的开源菜单栏应用程序，可让您通过语音控制计算机，同时将您的语音、屏幕截图和命令完全保留在设备上。它被设计为云语音助手的隐私优先替代方案：没有 API 密钥、没有订阅，也没有用于转录或推理的外部云处理。您可以使用它来打开和退出应用程序、调整系统设置、控制 Spotify、管理文件、运行 shell 命令、创建提醒，甚至通过基于视觉的点击与屏幕 UI 元素进行交互——所有这些都通过一个轻量级的菜单栏存在，不会妨碍您。

LocalClicky 的主要功能

LocalClicky 是一款离线优先的 macOS 菜单栏语音助手，它允许您通过语音命令控制您的 Mac，同时将语音、屏幕截图和命令上下文保留在设备上。它使用 whisper.cpp 进行本地转录，使用 Ollama（例如，qwen3 用于工具调用，gemma4 用于视觉）进行推理和屏幕理解，并使用 macOS/Python 自动化（AppleScript、shell、PyAutoGUI）来执行操作，例如打开应用程序、管理文件、控制 Spotify、创建提醒以及根据屏幕上的内容点击 UI 元素。它支持基于会话的多步骤工作流程，具有语音活动检测、可选的按需屏幕“视觉”和短期对话记忆。

完全本地处理（隐私优先）: 转录 (whisper.cpp)、推理/视觉 (Ollama 模型) 和执行都在您的机器上进行——没有云 API，没有 API 密钥，核心功能无需订阅。

带会话模式的菜单栏伴侣: 作为菜单栏应用程序安静运行（无 Dock 图标），并支持唤醒短语（“Computer”）来启动会话，然后接受连续命令，直到您关闭它或它超时。

语音活动检测 (VAD) 录音: 当您停止说话时（使用 webrtcvad）自动停止录音，避免固定持续时间的录音并加快命令周转时间。

按需屏幕视觉 + UI 点击: 在需要时，它会捕获屏幕截图，使用视觉模型定位 UI 元素，并使用边界框移动/点击光标，以执行“点击通知铃铛”等操作。

基于工具的 Mac 自动化: 可以运行 shell 命令、查询系统状态、通过 AppleScript 自动化应用程序（例如 Spotify/Chrome）、管理文件以及从自然语言创建提醒。

带验证的多轮工具调用: 执行多步骤工作流程（最多几轮工具），检查结果，并可以确认或重试操作以更可靠地完成任务。

LocalClicky 的使用场景

知识工作者的免提生产力: 通过语音打开/退出应用程序、管理标签页、调整系统设置、创建提醒并运行快速工作流程，同时专注于当前任务。

辅助功能和减少鼠标交互: 通过启用光标移动/点击和常见的操作系统/应用程序操作，无需持续手动导航，帮助受益于语音驱动控制的用户。

工作站上的开发人员和 IT 自动化: 通过语音触发 shell 命令、查询系统信息、管理文件以及协调例行设置/诊断，所有这些都在本地进行，适用于敏感环境。

创意软件指导和 UI 导航: 使用屏幕感知的指向/点击来导航复杂的 UI（例如，设计/视频工具）并更快地执行重复的界面操作。

隐私敏感型工作流程（受监管或机密）: 适用于屏幕/音频数据不得离开设备的场景，因为转录和视觉可以在本地运行，并且不需要云密钥。

优点

隐私优先：语音、屏幕截图和命令旨在保留在设备上（核心管道没有云 API）。

广泛的 Mac 控制：结合了语音转录、本地 LLM 工具调用和自动化（shell/AppleScript/PyAutoGUI）以完成实际任务。

基于会话的交互：支持无需重复唤醒词的链式命令，提高了多步骤工作的可用性。

缺点

唤醒词检测需要互联网（使用 Google 语音识别），因此默认情况下它并非完全离线。

需要 macOS 权限（麦克风、屏幕录制、辅助功能），这在受管环境中可能是一个设置障碍。

基于视觉的点击可能不精确，具体取决于模型/UI，复杂任务可能会达到工具轮次限制。

如何使用 LocalClicky

1) 确认要求: 使用 macOS 12+、Python 3.11+、Homebrew 和足够的空闲 RAM（约 8GB+）。您还需要在本地运行 Ollama。注意：默认的唤醒词检测使用 Google 语音识别，因此唤醒词功能需要互联网连接。

2) 安装 Whisper.cpp（本地转录）: 运行：`brew install whisper-cpp`

3) 下载 Whisper 模型文件: 运行： `mkdir -p /opt/homebrew/share/whisper-cpp/models` `curl -L -o /opt/homebrew/share/whisper-cpp/models/ggml-base.en.bin "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-base.en.bin"`

4) 安装 Ollama（本地 LLM + 视觉）: 运行：`brew install ollama`

5) 启动 Ollama 服务器: 运行：`ollama serve`（保持运行）。

6) 拉取默认的 LocalClicky 模型: 运行： `ollama pull qwen3:8b`（命令/工具调用模型） `ollama pull gemma4:e4b`（用于屏幕理解的视觉模型）

7) 设置 Python 环境: 从仓库进入 app 文件夹并创建一个 venv： `cd PyClicky` `python3 -m venv venv` `source venv/bin/activate` `pip install -r requirements.txt`

8) (可选) 安装静音检测以获得更好的录音停止行为: 安装 VAD，以便在您停止说话时自动停止录音： `pip install webrtcvad-wheels` 如果没有这个，录音将回退到 30 秒的硬上限。

9) 运行 LocalClicky: 在 `PyClicky/` 中激活 venv： `source venv/bin/activate` 如果需要，在后台启动 Ollama：`ollama serve &` 然后运行：`python main.py` LocalClicky 出现在 macOS 菜单栏中（没有 Dock 图标）。

10) 授予 macOS 权限（一次性）: 授予 venv Python 二进制文件（`/path/to/PyClicky/venv/bin/python3`）或 Terminal 权限（以便 Python 继承它们）： - 麦克风：首次运行时提示 - 屏幕录制：系统设置 → 隐私与安全 → 屏幕录制 - 辅助功能：系统设置 → 隐私与安全 → 辅助功能这些是语音输入、视觉屏幕截图以及光标/点击控制所必需的。

11) 启动语音会话（唤醒词）: 说“Computer”开始会话。LocalClicky 开始录音，然后在您停止说话时自动停止（如果安装了 VAD），在本地转录，并响应。

12) 继续发出命令，无需重复唤醒词: 响应后，LocalClicky 保持活动会话并立即监听您的下一个命令（您无需再次说“Computer”）。

13) 使用屏幕感知命令（视觉 + 光标控制）: 要求它与 UI 元素交互，例如“Click the notification bell.”LocalClicky 将截取屏幕截图（通过 `screencapture`），将其发送到本地视觉模型，接收边界框，并使用 PyAutoGUI 点击中心。

14) 尝试常见的示例命令: 项目中的示例： - “Open Spotify and play hip hop” - “Set volume to 50 percent” - “Open a new tab in Chrome” - “Make a folder called Projects on my Desktop” - “What’s on my screen?” - “Create a reminder to call John tomorrow at 9am”

15) 结束会话: 说“bye”、“goodbye”、“stop listening”、“go to sleep”或“that’s all”。会话也会在约 25 秒的静音后自动过期（默认）。

16) (可选) 自定义模型: 编辑 `PyClicky/ollama_client.py`： - `COMMAND_MODEL = "qwen3:8b"` - `VISION_MODEL = "gemma4:e4b"` 然后通过 `ollama pull ...` 拉取您选择的任何新模型。

17) (可选) 自定义唤醒词和超时: 编辑： - `PyClicky/wake_word.py` → `WAKE_PHRASES = [...]` - `PyClicky/companion.py` → `SESSION_IDLE_TIMEOUT = 25.0`

18) 如果出现故障，请快速排除故障: 常见修复： - 唤醒词从未触发：唤醒词使用 Google 语音识别；确保互联网连接并检查日志中的 `heard:`。 - 屏幕截图失败：授予屏幕录制权限；测试 `screencapture -x -t jpg /tmp/test.jpg`。 - 光标不动：授予辅助功能权限。 - 录音从未停止：安装 `webrtcvad-wheels`。 - Ollama 错误：使用 `ollama list` 确认模型存在，重新启动 `ollama serve`。

LocalClicky 常见问题

LocalClicky 是一款 macOS 菜单栏应用程序，让您可以通过语音控制 Mac，同时所有操作都保持离线。它使用本地转录 (Whisper.cpp)、本地 AI 推理/视觉 (Ollama 模型，如 qwen3 和 gemma4)、macOS 内置文本转语音 (`say`) 和 PyAutoGUI 进行光标/点击控制。