
LocalClicky
LocalClicky 是一個完全離線的 macOS 語音助理,它使用本地 Whisper 轉錄、本地 Ollama LLM (包括視覺) 和 PyAutoGUI 來控制您的 Mac、移動/點擊游標並執行命令,而無需將您的資料發送到雲端。
https://github.com/dikshantrajput/LocalClicky?ref=producthunt&utm_source=aipure

產品資訊
更新時間:2026年06月08日
什麼是 LocalClicky
LocalClicky 是一個開源的 macOS 選單列應用程式,可讓您透過語音控制電腦,同時將您的語音、螢幕截圖和命令完全保留在裝置上。它被設計為雲端語音助理的隱私優先替代方案:沒有 API 金鑰、沒有訂閱,也沒有用於轉錄或推理的外部雲端處理。您可以使用它來開啟和退出應用程式、調整系統設定、控制 Spotify、管理檔案、執行 Shell 命令、建立提醒,甚至透過基於視覺的點擊與螢幕上的 UI 元素互動——所有這些都來自一個輕量級的選單列,不會妨礙您。
LocalClicky 的主要功能
LocalClicky 是一款離線優先的 macOS 選單列語音助理,讓您可以使用語音指令控制 Mac,同時將語音、螢幕截圖和指令上下文保留在裝置上。它使用 whisper.cpp 進行本地轉錄,Ollama(例如,用於工具呼叫的 qwen3 和用於視覺的 gemma4)進行推理和螢幕理解,以及 macOS/Python 自動化(AppleScript、shell、PyAutoGUI)來執行操作,例如根據螢幕上的內容開啟應用程式、管理檔案、控制 Spotify、建立提醒和點擊 UI 元素。它支援基於會話的多步驟工作流程,具有語音活動偵測、可選的按需螢幕「視覺」和短期對話記憶。
完全本地處理(隱私優先): 轉錄 (whisper.cpp)、推理/視覺 (Ollama 模型) 和執行都在您的機器上進行——沒有雲端 API、沒有 API 金鑰,也沒有核心功能的訂閱。
帶有會話模式的選單列伴侶: 作為選單列應用程式安靜運行(沒有 Dock 圖示),並支援喚醒詞(「電腦」)來啟動會話,然後接受連續指令,直到您關閉它或它超時。
語音活動偵測 (VAD) 錄音: 當您停止說話時(使用 webrtcvad),自動停止錄音,避免固定持續時間的錄音並加快指令周轉時間。
按需螢幕視覺 + UI 點擊: 需要時,它會擷取螢幕截圖,使用視覺模型定位 UI 元素,並使用邊界框移動/點擊游標,以執行「點擊通知鈴」等操作。
基於工具的 Mac 自動化: 可以執行 shell 命令、查詢系統狀態、透過 AppleScript 自動化應用程式(例如,Spotify/Chrome)、管理檔案,並從自然語言建立提醒。
帶有驗證的多輪工具呼叫: 執行多步驟工作流程(最多幾輪工具),檢查結果,並可以確認或重試操作以更可靠地完成任務。
LocalClicky 的使用案例
知識工作者的免手持生產力: 透過語音開啟/退出應用程式、管理分頁、調整系統設定、建立提醒,並執行快速工作流程,同時專注於當前任務。
輔助功能和減少滑鼠互動: 透過啟用游標移動/點擊和常見的作業系統/應用程式操作,無需持續手動導航,幫助受益於語音驅動控制的使用者。
工作站上的開發人員和 IT 自動化: 透過語音觸發 shell 命令、查詢系統資訊、管理檔案,並協調例行設定/診斷,所有這些都在本地進行,適用於敏感環境。
創意軟體指導和 UI 導航: 使用螢幕感知指向/點擊來導航複雜的 UI(例如,設計/視訊工具),並更快地執行重複的介面操作。
隱私敏感型工作流程(受管制或機密): 適用於螢幕/音訊資料不得離開裝置的場景,因為轉錄和視覺可以在本地執行,並且不需要雲端金鑰。
優點
隱私優先:語音、螢幕截圖和指令旨在保留在裝置上(核心管道沒有雲端 API)。
廣泛的 Mac 控制:結合語音轉錄、本地 LLM 工具呼叫和自動化(shell/AppleScript/PyAutoGUI)以執行實際任務。
基於會話的互動:支援無需重複喚醒詞的鏈式指令,提高了多步驟工作的可用性。
缺點
喚醒詞偵測需要網路(使用 Google 語音辨識),因此預設情況下它不是完全離線的端到端。
需要 macOS 權限(麥克風、螢幕錄影、輔助使用),這在受管環境中可能是一個設定障礙。
基於視覺的點擊可能不精確,具體取決於模型/UI,複雜任務可能會達到工具輪次限制。
如何使用 LocalClicky
1) 確認要求: 使用 macOS 12+、Python 3.11+、Homebrew 和足夠的可用 RAM (~8GB+)。您還需要在本地執行 Ollama。注意:預設的喚醒詞偵測使用 Google 語音辨識,因此喚醒詞功能需要網路連線。
2) 安裝 Whisper.cpp (本地轉錄): 執行:`brew install whisper-cpp`
3) 下載 Whisper 模型檔案: 執行:
`mkdir -p /opt/homebrew/share/whisper-cpp/models`
`curl -L -o /opt/homebrew/share/whisper-cpp/models/ggml-base.en.bin "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-base.en.bin"`
4) 安裝 Ollama (本地 LLM + 視覺): 執行:`brew install ollama`
5) 啟動 Ollama 伺服器: 執行:`ollama serve` (讓它保持執行)。
6) 拉取預設的 LocalClicky 模型: 執行:
`ollama pull qwen3:8b` (命令/工具呼叫模型)
`ollama pull gemma4:e4b` (用於螢幕理解的視覺模型)
7) 設定 Python 環境: 從儲存庫進入應用程式資料夾並建立一個 venv:
`cd PyClicky`
`python3 -m venv venv`
`source venv/bin/activate`
`pip install -r requirements.txt`
8) (可選) 安裝靜音偵測以獲得更好的錄音停止行為: 安裝 VAD,以便在您停止說話時自動停止錄音:
`pip install webrtcvad-wheels`
如果沒有這個,錄音將回退到 30 秒的硬性限制。
9) 執行 LocalClicky: 從 `PyClicky/` 並啟用 venv:
`source venv/bin/activate`
如果需要,在後台啟動 Ollama:`ollama serve &`
然後執行:`python main.py`
LocalClicky 會出現在 macOS 選單列中 (沒有 Dock 圖示)。
10) 授予 macOS 權限 (一次性): 授予權限給 venv Python 二進位檔 (`/path/to/PyClicky/venv/bin/python3`) 或 Terminal (以便 Python 繼承它們):
- 麥克風:首次執行時提示
- 螢幕錄製:系統設定 → 隱私與安全性 → 螢幕錄製
- 輔助功能:系統設定 → 隱私與安全性 → 輔助功能
這些是語音輸入、用於視覺的螢幕截圖以及游標/點擊控制所必需的。
11) 開始語音會話 (喚醒詞): 說「Computer」以開始會話。LocalClicky 開始錄音,然後在您停止說話時自動停止 (如果安裝了 VAD),在本地轉錄並回應。
12) 繼續發出命令,無需重複喚醒詞: 回應後,LocalClicky 會保持在活動會話中,並立即監聽您的下一個命令 (您無需再次說「Computer」)。
13) 使用螢幕感知命令 (視覺 + 游標控制): 要求它與 UI 元素互動,例如「點擊通知鈴」。LocalClicky 將截取螢幕截圖 (透過 `screencapture`),將其發送到本地視覺模型,接收邊界框,並使用 PyAutoGUI 點擊中心。
14) 嘗試常見的範例命令: 專案中的範例:
- 「開啟 Spotify 並播放嘻哈音樂」
- 「將音量設定為 50%」
- 「在 Chrome 中開啟一個新分頁」
- 「在我的桌面上建立一個名為 Projects 的資料夾」
- 「我的螢幕上有什麼?」
- 「建立一個提醒,明天早上 9 點打電話給 John」
15) 結束會話: 說「bye」、「goodbye」、「stop listening」、「go to sleep」或「that’s all」。會話也會在約 25 秒的靜音後自動過期 (預設)。
16) (可選) 自訂模型: 編輯 `PyClicky/ollama_client.py`:
- `COMMAND_MODEL = "qwen3:8b"`
- `VISION_MODEL = "gemma4:e4b"`
然後透過 `ollama pull ...` 拉取您選擇的任何新模型。
17) (可選) 自訂喚醒詞和逾時: 編輯:
- `PyClicky/wake_word.py` → `WAKE_PHRASES = [...]`
- `PyClicky/companion.py` → `SESSION_IDLE_TIMEOUT = 25.0`
18) 如果出現問題,請快速排除故障: 常見的修復方法:
- 喚醒詞從未觸發:喚醒詞使用 Google 語音辨識;確保網路連線並檢查日誌中的 `heard:`。
- 螢幕截圖失敗:授予螢幕錄製權限;測試 `screencapture -x -t jpg /tmp/test.jpg`。
- 游標不動:授予輔助功能權限。
- 錄音從未停止:安裝 `webrtcvad-wheels`。
- Ollama 錯誤:使用 `ollama list` 確認模型存在,重新啟動 `ollama serve`。
LocalClicky 常見問題
LocalClicky 是一個 macOS 選單列應用程式,讓您可以用聲音控制您的 Mac,同時保持所有操作離線。它使用本地轉錄 (Whisper.cpp)、本地 AI 推理/視覺 (Ollama 模型,如 qwen3 和 gemma4)、macOS 內建的文字轉語音 (`say`),以及 PyAutoGUI 進行游標/點擊控制。











