LocalClicky

LocalClicky

LocalClicky adalah asisten suara macOS yang sepenuhnya offline yang menggunakan transkripsi Whisper lokal, LLM Ollama lokal (termasuk visi), dan PyAutoGUI untuk mengontrol Mac Anda, memindahkan/mengklik kursor, dan menjalankan perintah tanpa mengirim data Anda ke cloud.
https://github.com/dikshantrajput/LocalClicky?ref=producthunt&utm_source=aipure
LocalClicky

Informasi Produk

Diperbarui:Jun 8, 2026

Apa itu LocalClicky

LocalClicky adalah aplikasi menubar open-source untuk macOS yang memungkinkan Anda mengontrol komputer dengan suara Anda sambil menjaga suara, tangkapan layar, dan perintah Anda sepenuhnya di perangkat. Ini dirancang sebagai alternatif yang mengutamakan privasi untuk asisten suara cloud: tanpa kunci API, tanpa langganan, dan tanpa pemrosesan cloud eksternal untuk transkripsi atau penalaran. Anda dapat menggunakannya untuk membuka dan menutup aplikasi, menyesuaikan pengaturan sistem, mengontrol Spotify, mengelola file, menjalankan perintah shell, membuat Pengingat, dan bahkan berinteraksi dengan elemen UI di layar melalui klik berbasis visi—semuanya dari kehadiran menubar ringan yang tidak mengganggu.

Fitur Utama LocalClicky

LocalClicky adalah asisten suara menubar macOS offline-first yang memungkinkan Anda mengontrol Mac Anda dengan perintah suara sambil menjaga suara, tangkapan layar, dan konteks perintah tetap di perangkat. Ini menggunakan whisper.cpp untuk transkripsi lokal, Ollama (misalnya, qwen3 untuk pemanggilan alat dan gemma4 untuk visi) untuk penalaran dan pemahaman layar, dan otomatisasi macOS/Python (AppleScript, shell, PyAutoGUI) untuk menjalankan tindakan seperti membuka aplikasi, mengelola file, mengontrol Spotify, membuat pengingat, dan mengklik elemen UI berdasarkan apa yang ada di layar Anda. Ini mendukung alur kerja multi-langkah berbasis sesi dengan deteksi aktivitas suara, "visi" layar sesuai permintaan opsional, dan memori percakapan jangka pendek.
Pemrosesan sepenuhnya lokal (privasi-utama): Transkripsi (whisper.cpp), penalaran/visi (model Ollama), dan eksekusi terjadi di mesin Anda—tidak ada API cloud, tidak ada kunci API, dan tidak ada langganan untuk fungsionalitas inti.
Pendamping menubar dengan mode sesi: Berjalan dengan tenang sebagai aplikasi menubar (tidak ada ikon Dock) dan mendukung frasa bangun ("Komputer") untuk memulai sesi, lalu menerima perintah berturut-turut hingga Anda menutupnya atau waktu habis.
Perekaman Deteksi Aktivitas Suara (VAD): Secara otomatis berhenti merekam saat Anda berhenti berbicara (dengan webrtcvad), menghindari perekaman durasi tetap dan mempercepat penyelesaian perintah.
Visi layar sesuai permintaan + klik UI: Bila diperlukan, ia menangkap tangkapan layar, menggunakan model visi untuk menemukan elemen UI, dan memindahkan/mengklik kursor menggunakan kotak pembatas untuk tindakan seperti "klik bel notifikasi."
Otomatisasi Mac berbasis alat: Dapat menjalankan perintah shell, menanyakan status sistem, mengotomatiskan aplikasi melalui AppleScript (misalnya, Spotify/Chrome), mengelola file, dan membuat Pengingat dari bahasa alami.
Pemanggilan alat multi-putaran dengan verifikasi: Melakukan alur kerja multi-langkah (hingga beberapa putaran alat), memeriksa hasil, dan dapat mengonfirmasi atau mencoba kembali tindakan untuk menyelesaikan tugas dengan lebih andal.

Kasus Penggunaan LocalClicky

Produktivitas bebas genggam untuk pekerja pengetahuan: Buka/tutup aplikasi, kelola tab, sesuaikan pengaturan sistem, buat pengingat, dan jalankan alur kerja cepat dengan suara sambil tetap fokus pada tugas saat ini.
Aksesibilitas dan interaksi yang mengurangi penggunaan mouse: Membantu pengguna yang mendapat manfaat dari kontrol suara dengan memungkinkan pergerakan/klik kursor dan tindakan OS/aplikasi umum tanpa navigasi manual yang konstan.
Otomatisasi pengembang dan TI di stasiun kerja: Memicu perintah shell, menanyakan info sistem, mengelola file, dan mengatur pengaturan/diagnostik rutin melalui suara, semuanya secara lokal untuk lingkungan yang sensitif.
Panduan perangkat lunak kreatif dan navigasi UI: Gunakan penunjuk/klik yang peka terhadap layar untuk menavigasi UI yang kompleks (misalnya, alat desain/video) dan menjalankan tindakan antarmuka yang berulang lebih cepat.
Alur kerja yang sensitif privasi (diatur atau rahasia): Cocok untuk skenario di mana data layar/audio tidak boleh meninggalkan perangkat, karena transkripsi dan visi dapat berjalan secara lokal dan tidak diperlukan kunci cloud.

Kelebihan

Mengutamakan privasi: suara, tangkapan layar, dan perintah dirancang untuk tetap berada di perangkat (tidak ada API cloud untuk pipeline inti).
Kontrol Mac yang luas: menggabungkan transkripsi suara, pemanggilan alat LLM lokal, dan otomatisasi (shell/AppleScript/PyAutoGUI) untuk tugas-tugas praktis.
Interaksi berbasis sesi: mendukung perintah berantai tanpa mengulang kata bangun, meningkatkan kegunaan untuk pekerjaan multi-langkah.

Kekurangan

Deteksi kata bangun memerlukan internet (menggunakan Google Speech Recognition), jadi secara default tidak sepenuhnya offline secara end-to-end.
Izin macOS diperlukan (Mikrofon, Perekaman Layar, Aksesibilitas), yang dapat menjadi hambatan penyiapan di lingkungan terkelola.
Klik berbasis visi bisa jadi tidak tepat tergantung pada model/UI, dan tugas yang kompleks mungkin mencapai batas putaran alat.

Cara Menggunakan LocalClicky

1) Konfirmasi persyaratan: Gunakan macOS 12+, Python 3.11+, Homebrew, dan RAM kosong yang cukup (~8GB+). Anda juga memerlukan Ollama yang berjalan secara lokal. Catatan: deteksi kata bangun default menggunakan Google Speech Recognition, jadi koneksi internet diperlukan untuk fitur kata bangun.
2) Instal Whisper.cpp (transkripsi lokal): Jalankan: `brew install whisper-cpp`
3) Unduh file model Whisper: Jalankan: `mkdir -p /opt/homebrew/share/whisper-cpp/models` `curl -L -o /opt/homebrew/share/whisper-cpp/models/ggml-base.en.bin "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-base.en.bin"`
4) Instal Ollama (LLM lokal + visi): Jalankan: `brew install ollama`
5) Mulai server Ollama: Jalankan: `ollama serve` (biarkan tetap berjalan).
6) Tarik model LocalClicky default: Jalankan: `ollama pull qwen3:8b` (model pemanggilan perintah/alat) `ollama pull gemma4:e4b` (model visi yang digunakan untuk pemahaman layar)
7) Siapkan lingkungan Python: Dari repo, masuk ke folder aplikasi dan buat venv: `cd PyClicky` `python3 -m venv venv` `source venv/bin/activate` `pip install -r requirements.txt`
8) (Opsional) Instal deteksi keheningan untuk perilaku berhenti merekam yang lebih baik: Instal VAD agar perekaman otomatis berhenti saat Anda berhenti berbicara: `pip install webrtcvad-wheels` Tanpa ini, perekaman akan kembali ke batas keras 30 detik.
9) Jalankan LocalClicky: Dari `PyClicky/` dengan venv aktif: `source venv/bin/activate` Jika diperlukan, mulai Ollama di latar belakang: `ollama serve &` Kemudian jalankan: `python main.py` LocalClicky muncul di bilah menu macOS (tanpa ikon Dock).
10) Berikan izin macOS (satu kali): Berikan izin ke biner Python venv (`/path/to/PyClicky/venv/bin/python3`) atau ke Terminal (agar Python mewarisi izin tersebut): - Mikrofon: diminta saat pertama kali dijalankan - Perekaman Layar: Pengaturan Sistem → Privasi & Keamanan → Perekaman Layar - Aksesibilitas: Pengaturan Sistem → Privasi & Keamanan → Aksesibilitas Ini diperlukan untuk masukan suara, tangkapan layar untuk visi, dan kontrol kursor/klik.
11) Mulai sesi suara (kata bangun): Ucapkan “Computer” untuk memulai sesi. LocalClicky mulai merekam, lalu otomatis berhenti saat Anda berhenti berbicara (jika VAD terinstal), mentranskripsi secara lokal, dan merespons.
12) Lanjutkan mengeluarkan perintah tanpa mengulang kata bangun: Setelah merespons, LocalClicky tetap dalam sesi aktif dan mendengarkan perintah Anda berikutnya segera (Anda tidak perlu mengucapkan “Computer” lagi).
13) Gunakan perintah yang peka terhadap layar (visi + kontrol kursor): Minta untuk berinteraksi dengan elemen UI, mis. “Klik bel notifikasi.” LocalClicky akan mengambil tangkapan layar (melalui `screencapture`), mengirimkannya ke model visi lokal, menerima kotak pembatas, dan mengklik bagian tengah menggunakan PyAutoGUI.
14) Coba contoh perintah umum: Contoh dari proyek: - “Buka Spotify dan putar hip hop” - “Atur volume ke 50 persen” - “Buka tab baru di Chrome” - “Buat folder bernama Proyek di Desktop saya” - “Apa yang ada di layar saya?” - “Buat pengingat untuk menelepon John besok jam 9 pagi”
15) Akhiri sesi: Ucapkan “bye”, “goodbye”, “stop listening”, “go to sleep”, atau “that’s all”. Sesi juga otomatis berakhir setelah ~25 detik keheningan (default).
16) (Opsional) Sesuaikan model: Edit `PyClicky/ollama_client.py`: - `COMMAND_MODEL = "qwen3:8b"` - `VISION_MODEL = "gemma4:e4b"` Kemudian tarik model baru apa pun yang Anda pilih melalui `ollama pull ...`.
17) (Opsional) Sesuaikan kata bangun dan batas waktu: Edit: - `PyClicky/wake_word.py` → `WAKE_PHRASES = [...]` - `PyClicky/companion.py` → `SESSION_IDLE_TIMEOUT = 25.0`
18) Pecahkan masalah dengan cepat jika ada yang gagal: Perbaikan umum: - Kata bangun tidak pernah terpicu: kata bangun menggunakan Google Speech Recognition; pastikan internet dan periksa log untuk `heard:`. - Tangkapan layar gagal: berikan izin Perekaman Layar; uji `screencapture -x -t jpg /tmp/test.jpg`. - Kursor tidak bergerak: berikan izin Aksesibilitas. - Perekaman tidak pernah berhenti: instal `webrtcvad-wheels`. - Kesalahan Ollama: konfirmasi model ada dengan `ollama list`, mulai ulang `ollama serve`.

FAQ LocalClicky

LocalClicky adalah aplikasi menubar macOS yang memungkinkan Anda mengontrol Mac dengan suara Anda sambil menjaga semuanya tetap offline. Aplikasi ini menggunakan transkripsi lokal (Whisper.cpp), penalaran/visi AI lokal (model Ollama seperti qwen3 dan gemma4), text-to-speech bawaan macOS (`say`), dan PyAutoGUI untuk kontrol kursor/klik.

Alat AI Terbaru Serupa dengan LocalClicky

Advanced Voice
Advanced Voice
Advanced Voice adalah fitur interaksi suara mutakhir dari ChatGPT yang memungkinkan percakapan suara alami secara waktu nyata dengan instruksi kustom, berbagai opsi suara, dan aksen yang ditingkatkan untuk komunikasi manusia-AI yang mulus.
Vagent
Vagent
Vagent adalah antarmuka suara ringan yang memungkinkan pengguna berinteraksi dengan agen AI kustom melalui perintah suara, memberikan cara yang alami dan intuitif untuk mengontrol otomatisasi dengan dukungan untuk 60+ bahasa.
Vapify
Vapify
Vapify adalah platform white-label yang memungkinkan agensi untuk menawarkan solusi AI suara Vapi.ai di bawah merek mereka sendiri sambil mempertahankan kontrol atas hubungan klien dan memaksimalkan pendapatan.
Wedding Speech Genie
Wedding Speech Genie
Wedding Speech Genie adalah platform bertenaga AI yang membuat pidato pernikahan yang dipersonalisasi dalam hitungan menit dengan menghasilkan 3 versi kustom berdasarkan input Anda, membantu pembicara menyampaikan toast yang berkesan untuk setiap peran pernikahan.