
LocalClicky
LocalClicky là một trợ lý giọng nói macOS hoàn toàn ngoại tuyến sử dụng phiên âm Whisper cục bộ, Ollama LLM cục bộ (bao gồm cả thị giác) và PyAutoGUI để điều khiển máy Mac của bạn, di chuyển/nhấp chuột và chạy lệnh mà không gửi dữ liệu của bạn lên đám mây.
https://github.com/dikshantrajput/LocalClicky?ref=producthunt&utm_source=aipure

Thông tin Sản phẩm
Đã cập nhật:Jun 8, 2026
LocalClicky là gì
LocalClicky là một ứng dụng menubar mã nguồn mở dành cho macOS cho phép bạn điều khiển máy tính bằng giọng nói trong khi giữ giọng nói, ảnh chụp màn hình và lệnh của bạn hoàn toàn trên thiết bị. Nó được thiết kế như một giải pháp thay thế ưu tiên quyền riêng tư cho các trợ lý giọng nói đám mây: không có khóa API, không có đăng ký và không có xử lý đám mây bên ngoài để phiên âm hoặc suy luận. Bạn có thể sử dụng nó để mở và thoát ứng dụng, điều chỉnh cài đặt hệ thống, điều khiển Spotify, quản lý tệp, chạy lệnh shell, tạo Lời nhắc và thậm chí tương tác với các yếu tố giao diện người dùng trên màn hình thông qua nhấp chuột dựa trên thị giác—tất cả từ một sự hiện diện menubar nhẹ nhàng không gây cản trở.
Các Tính năng Chính của LocalClicky
LocalClicky là trợ lý giọng nói trên thanh menu macOS ưu tiên ngoại tuyến, cho phép bạn điều khiển máy Mac bằng các lệnh nói trong khi vẫn giữ giọng nói, ảnh chụp màn hình và ngữ cảnh lệnh trên thiết bị. Nó sử dụng whisper.cpp để phiên âm cục bộ, Ollama (ví dụ: qwen3 cho gọi công cụ và gemma4 cho thị giác) để suy luận và hiểu màn hình, và tự động hóa macOS/Python (AppleScript, shell, PyAutoGUI) để thực hiện các hành động như mở ứng dụng, quản lý tệp, điều khiển Spotify, tạo lời nhắc và nhấp vào các yếu tố giao diện người dùng dựa trên những gì có trên màn hình của bạn. Nó hỗ trợ các quy trình làm việc nhiều bước, dựa trên phiên với tính năng phát hiện hoạt động giọng nói, "thị giác" màn hình theo yêu cầu tùy chọn và bộ nhớ đàm thoại ngắn hạn.
Xử lý hoàn toàn cục bộ (ưu tiên quyền riêng tư): Phiên âm (whisper.cpp), suy luận/thị giác (mô hình Ollama) và thực thi diễn ra trên máy của bạn—không có API đám mây, không có khóa API và không có đăng ký cho chức năng cốt lõi.
Bạn đồng hành trên thanh menu với chế độ phiên: Chạy âm thầm dưới dạng ứng dụng thanh menu (không có biểu tượng Dock) và hỗ trợ cụm từ đánh thức ("Computer") để bắt đầu một phiên, sau đó chấp nhận các lệnh liên tiếp cho đến khi bạn đóng hoặc hết thời gian chờ.
Ghi âm phát hiện hoạt động giọng nói (VAD): Tự động dừng ghi khi bạn ngừng nói (với webrtcvad), tránh ghi âm cố định thời lượng và tăng tốc độ phản hồi lệnh.
Thị giác màn hình theo yêu cầu + nhấp chuột giao diện người dùng: Khi cần, nó chụp ảnh màn hình, sử dụng mô hình thị giác để định vị các yếu tố giao diện người dùng và di chuyển/nhấp chuột bằng cách sử dụng các hộp giới hạn cho các hành động như "nhấp vào chuông thông báo."
Tự động hóa Mac dựa trên công cụ: Có thể chạy các lệnh shell, truy vấn trạng thái hệ thống, tự động hóa ứng dụng thông qua AppleScript (ví dụ: Spotify/Chrome), quản lý tệp và tạo Lời nhắc từ ngôn ngữ tự nhiên.
Gọi công cụ nhiều vòng với xác minh: Thực hiện các quy trình làm việc nhiều bước (lên đến vài vòng công cụ), kiểm tra kết quả và có thể xác nhận hoặc thử lại các hành động để hoàn thành nhiệm vụ đáng tin cậy hơn.
Các Trường hợp Sử dụng của LocalClicky
Năng suất rảnh tay cho nhân viên tri thức: Mở/đóng ứng dụng, quản lý tab, điều chỉnh cài đặt hệ thống, tạo lời nhắc và chạy các quy trình làm việc nhanh chóng bằng giọng nói trong khi vẫn tập trung vào tác vụ hiện tại.
Khả năng tiếp cận và giảm tương tác chuột: Giúp người dùng được hưởng lợi từ điều khiển bằng giọng nói bằng cách cho phép di chuyển/nhấp chuột và các hành động OS/ứng dụng thông thường mà không cần điều hướng thủ công liên tục.
Tự động hóa dành cho nhà phát triển và IT trên máy trạm: Kích hoạt các lệnh shell, truy vấn thông tin hệ thống, quản lý tệp và điều phối thiết lập/chẩn đoán định kỳ qua giọng nói, tất cả đều cục bộ cho các môi trường nhạy cảm.
Hướng dẫn phần mềm sáng tạo và điều hướng giao diện người dùng: Sử dụng tính năng chỉ/nhấp chuột nhận biết màn hình để điều hướng các giao diện người dùng phức tạp (ví dụ: công cụ thiết kế/video) và thực hiện các hành động giao diện lặp đi lặp lại nhanh hơn.
Quy trình làm việc nhạy cảm về quyền riêng tư (được quy định hoặc bảo mật): Thích hợp cho các trường hợp dữ liệu màn hình/âm thanh không được rời khỏi thiết bị, vì phiên âm và thị giác có thể chạy cục bộ và không yêu cầu khóa đám mây.
Ưu điểm
Ưu tiên quyền riêng tư: giọng nói, ảnh chụp màn hình và lệnh được thiết kế để giữ trên thiết bị (không có API đám mây cho quy trình cốt lõi).
Kiểm soát Mac rộng rãi: kết hợp phiên âm giọng nói, gọi công cụ LLM cục bộ và tự động hóa (shell/AppleScript/PyAutoGUI) cho các tác vụ thực tế.
Tương tác dựa trên phiên: hỗ trợ các lệnh được xâu chuỗi mà không cần lặp lại từ đánh thức, cải thiện khả năng sử dụng cho công việc nhiều bước.
Nhược điểm
Phát hiện từ đánh thức yêu cầu internet (sử dụng Google Speech Recognition), vì vậy nó không hoàn toàn ngoại tuyến từ đầu đến cuối theo mặc định.
Cần có quyền macOS (Microphone, Screen Recording, Accessibility), đây có thể là một trở ngại trong môi trường được quản lý.
Nhấp chuột dựa trên thị giác có thể không chính xác tùy thuộc vào mô hình/giao diện người dùng và các tác vụ phức tạp có thể đạt đến giới hạn vòng công cụ.
Cách Sử dụng LocalClicky
1) Xác nhận yêu cầu: Sử dụng macOS 12+, Python 3.11+, Homebrew và đủ RAM trống (~8GB+). Bạn cũng cần Ollama chạy cục bộ. Lưu ý: tính năng phát hiện từ đánh thức mặc định sử dụng Google Speech Recognition, vì vậy cần có kết nối internet cho tính năng từ đánh thức.
2) Cài đặt Whisper.cpp (phiên âm cục bộ): Chạy: `brew install whisper-cpp`
3) Tải xuống tệp mô hình Whisper: Chạy:
`mkdir -p /opt/homebrew/share/whisper-cpp/models`
`curl -L -o /opt/homebrew/share/whisper-cpp/models/ggml-base.en.bin "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-base.en.bin"`
4) Cài đặt Ollama (LLM + thị giác cục bộ): Chạy: `brew install ollama`
5) Khởi động máy chủ Ollama: Chạy: `ollama serve` (để nó chạy).
6) Kéo các mô hình LocalClicky mặc định: Chạy:
`ollama pull qwen3:8b` (mô hình gọi lệnh/công cụ)
`ollama pull gemma4:e4b` (mô hình thị giác được sử dụng để hiểu màn hình)
7) Thiết lập môi trường Python: Từ kho lưu trữ, vào thư mục ứng dụng và tạo một venv:
`cd PyClicky`
`python3 -m venv venv`
`source venv/bin/activate`
`pip install -r requirements.txt`
8) (Tùy chọn) Cài đặt phát hiện im lặng để dừng ghi âm tốt hơn: Cài đặt VAD để ghi âm tự động dừng khi bạn ngừng nói:
`pip install webrtcvad-wheels`
Nếu không có điều này, ghi âm sẽ quay trở lại giới hạn cứng 30 giây.
9) Chạy LocalClicky: Từ `PyClicky/` với venv đang hoạt động:
`source venv/bin/activate`
Nếu cần, khởi động Ollama trong nền: `ollama serve &`
Sau đó chạy: `python main.py`
LocalClicky xuất hiện trong thanh menu macOS (không có biểu tượng Dock).
10) Cấp quyền macOS (một lần): Cấp quyền cho tệp nhị phân Python của venv (`/path/to/PyClicky/venv/bin/python3`) hoặc cho Terminal (để Python kế thừa chúng):
- Micrô: được nhắc khi chạy lần đầu
- Ghi màn hình: Cài đặt hệ thống → Quyền riêng tư & Bảo mật → Ghi màn hình
- Trợ năng: Cài đặt hệ thống → Quyền riêng tư & Bảo mật → Trợ năng
Những điều này là bắt buộc đối với đầu vào giọng nói, ảnh chụp màn hình cho thị giác và điều khiển con trỏ/nhấp chuột.
11) Bắt đầu phiên giọng nói (từ đánh thức): Nói “Computer” để bắt đầu phiên. LocalClicky bắt đầu ghi âm, sau đó tự động dừng khi bạn ngừng nói (nếu VAD được cài đặt), phiên âm cục bộ và phản hồi.
12) Tiếp tục đưa ra lệnh mà không lặp lại từ đánh thức: Sau khi nó phản hồi, LocalClicky vẫn ở trong phiên hoạt động và lắng nghe lệnh tiếp theo của bạn ngay lập tức (bạn không cần phải nói “Computer” nữa).
13) Sử dụng các lệnh nhận biết màn hình (thị giác + điều khiển con trỏ): Yêu cầu nó tương tác với các yếu tố giao diện người dùng, ví dụ: “Click the notification bell.” LocalClicky sẽ chụp ảnh màn hình (thông qua `screencapture`), gửi nó đến mô hình thị giác cục bộ, nhận một hộp giới hạn và nhấp vào trung tâm bằng PyAutoGUI.
14) Thử các lệnh ví dụ phổ biến: Các ví dụ từ dự án:
- “Open Spotify and play hip hop”
- “Set volume to 50 percent”
- “Open a new tab in Chrome”
- “Make a folder called Projects on my Desktop”
- “What’s on my screen?”
- “Create a reminder to call John tomorrow at 9am”
15) Kết thúc phiên: Nói “bye”, “goodbye”, “stop listening”, “go to sleep”, hoặc “that’s all”. Phiên cũng tự động hết hạn sau khoảng 25 giây im lặng (mặc định).
16) (Tùy chọn) Tùy chỉnh mô hình: Chỉnh sửa `PyClicky/ollama_client.py`:
- `COMMAND_MODEL = "qwen3:8b"`
- `VISION_MODEL = "gemma4:e4b"`
Sau đó kéo bất kỳ mô hình mới nào bạn chọn thông qua `ollama pull ...`.
17) (Tùy chọn) Tùy chỉnh từ đánh thức và thời gian chờ: Chỉnh sửa:
- `PyClicky/wake_word.py` → `WAKE_PHRASES = [...]`
- `PyClicky/companion.py` → `SESSION_IDLE_TIMEOUT = 25.0`
18) Khắc phục sự cố nhanh chóng nếu có lỗi: Các bản sửa lỗi phổ biến:
- Từ đánh thức không bao giờ kích hoạt: từ đánh thức sử dụng Google Speech Recognition; đảm bảo có internet và kiểm tra nhật ký cho `heard:`.
- Ảnh chụp màn hình không thành công: cấp quyền Ghi màn hình; kiểm tra `screencapture -x -t jpg /tmp/test.jpg`.
- Con trỏ không di chuyển: cấp quyền Trợ năng.
- Ghi âm không bao giờ dừng: cài đặt `webrtcvad-wheels`.
- Lỗi Ollama: xác nhận các mô hình tồn tại với `ollama list`, khởi động lại `ollama serve`.
Câu hỏi Thường gặp về LocalClicky
LocalClicky là một ứng dụng menubar trên macOS cho phép bạn điều khiển máy Mac bằng giọng nói trong khi vẫn giữ mọi thứ ngoại tuyến. Nó sử dụng tính năng chuyển đổi giọng nói thành văn bản cục bộ (Whisper.cpp), suy luận/thị giác AI cục bộ (các mô hình Ollama như qwen3 và gemma4), chuyển văn bản thành giọng nói tích hợp của macOS (`say`) và PyAutoGUI để điều khiển con trỏ/nhấp chuột.
Video LocalClicky
Bài viết phổ biến

Atoms: Nền tảng AI đa tác nhân biến ý tưởng thành sản phẩm sẵn sàng ra mắt
May 22, 2026

Nano Banana SBTI: Nó là gì, Cách thức hoạt động và Cách sử dụng nó vào năm 2026
Apr 15, 2026

Đánh giá Atoms — Trình tạo sản phẩm AI định nghĩa lại việc tạo nội dung số vào năm 2026
Apr 10, 2026

Kilo Claw: Cách Triển Khai và Sử Dụng AI Agent "Làm-Thay-Bạn" Thực Sự (Cập Nhật 2026)
Apr 3, 2026







