
LocalClicky
LocalClicky è un assistente vocale macOS completamente offline che utilizza la trascrizione locale Whisper, gli LLM locali di Ollama (inclusa la visione) e PyAutoGUI per controllare il tuo Mac, spostare/cliccare il cursore ed eseguire comandi senza inviare i tuoi dati al cloud.
https://github.com/dikshantrajput/LocalClicky?ref=producthunt&utm_source=aipure

Informazioni sul Prodotto
Aggiornato:Jun 8, 2026
Cos'è LocalClicky
LocalClicky è un'app open-source per la barra dei menu di macOS che ti consente di controllare il tuo computer con la voce, mantenendo voce, screenshot e comandi interamente sul dispositivo. È progettata come un'alternativa incentrata sulla privacy agli assistenti vocali cloud: nessuna chiave API, nessun abbonamento e nessuna elaborazione cloud esterna per la trascrizione o il ragionamento. Puoi usarla per aprire e chiudere app, regolare le impostazioni di sistema, controllare Spotify, gestire file, eseguire comandi shell, creare promemoria e persino interagire con elementi dell'interfaccia utente sullo schermo tramite clic basati sulla visione, il tutto da una leggera presenza nella barra dei menu che non intralcia.
Caratteristiche principali di LocalClicky
LocalClicky è un assistente vocale per la barra dei menu di macOS, "offline-first", che ti permette di controllare il tuo Mac con comandi vocali mantenendo voce, screenshot e contesto dei comandi sul dispositivo. Utilizza whisper.cpp per la trascrizione locale, Ollama (ad esempio, qwen3 per il "tool-calling" e gemma4 per la visione) per il ragionamento e la comprensione dello schermo, e l'automazione di macOS/Python (AppleScript, shell, PyAutoGUI) per eseguire azioni come aprire app, gestire file, controllare Spotify, creare promemoria e cliccare elementi dell'interfaccia utente in base a ciò che è presente sullo schermo. Supporta flussi di lavoro multi-step basati su sessione con rilevamento dell'attività vocale, "visione" dello schermo opzionale su richiesta e memoria conversazionale a breve termine.
Elaborazione completamente locale (privacy-first): Trascrizione (whisper.cpp), ragionamento/visione (modelli Ollama) ed esecuzione avvengono sulla tua macchina: nessuna API cloud, nessuna chiave API e nessun abbonamento per le funzionalità principali.
Compagno della barra dei menu con modalità sessione: Funziona silenziosamente come app della barra dei menu (nessuna icona nel Dock) e supporta una frase di attivazione ("Computer") per avviare una sessione, quindi accetta comandi consecutivi finché non la chiudi o scade il tempo.
Registrazione con rilevamento dell'attività vocale (VAD): Interrompe automaticamente la registrazione quando smetti di parlare (con webrtcvad), evitando registrazioni a durata fissa e accelerando i tempi di risposta dei comandi.
Visione dello schermo su richiesta + clic sull'interfaccia utente: Quando necessario, cattura uno screenshot, utilizza un modello di visione per localizzare gli elementi dell'interfaccia utente e sposta/clicca il cursore utilizzando i "bounding box" per azioni come "clicca la campanella delle notifiche".
Automazione Mac basata su strumenti: Può eseguire comandi shell, interrogare lo stato del sistema, automatizzare app tramite AppleScript (ad esempio, Spotify/Chrome), gestire file e creare promemoria dal linguaggio naturale.
Chiamata di strumenti multi-round con verifica: Esegue flussi di lavoro multi-step (fino a diversi round di strumenti), controlla i risultati e può confermare o riprovare le azioni per completare le attività in modo più affidabile.
Casi d'uso di LocalClicky
Produttività a mani libere per i lavoratori della conoscenza: Apri/chiudi app, gestisci schede, regola le impostazioni di sistema, crea promemoria ed esegui flussi di lavoro rapidi tramite voce, rimanendo concentrato sull'attività corrente.
Accessibilità e interazione ridotta con il mouse: Aiuta gli utenti che beneficiano del controllo vocale consentendo il movimento/clic del cursore e le azioni comuni del sistema operativo/app senza una navigazione manuale costante.
Automazione per sviluppatori e IT su una workstation: Attiva comandi shell, interroga le informazioni di sistema, gestisci file e orchestra la configurazione/diagnostica di routine tramite voce, tutto localmente per ambienti sensibili.
Guida al software creativo e navigazione dell'interfaccia utente: Utilizza il puntamento/clic consapevole dello schermo per navigare interfacce utente complesse (ad esempio, strumenti di progettazione/video) ed eseguire azioni ripetitive dell'interfaccia più rapidamente.
Flussi di lavoro sensibili alla privacy (regolamentati o confidenziali): Adatto per scenari in cui i dati dello schermo/audio non devono lasciare il dispositivo, poiché la trascrizione e la visione possono essere eseguite localmente e non sono necessarie chiavi cloud.
Vantaggi
Attento alla privacy: voce, screenshot e comandi sono progettati per rimanere sul dispositivo (nessuna API cloud per la pipeline principale).
Ampio controllo Mac: combina trascrizione vocale, "tool-calling" LLM locale e automazione (shell/AppleScript/PyAutoGUI) per attività pratiche.
Interazione basata su sessione: supporta comandi concatenati senza ripetere la parola di attivazione, migliorando l'usabilità per il lavoro multi-step.
Svantaggi
Il rilevamento della parola di attivazione richiede Internet (utilizza Google Speech Recognition), quindi non è completamente offline end-to-end per impostazione predefinita.
Sono necessarie le autorizzazioni di macOS (Microfono, Registrazione schermo, Accessibilità), il che può essere un ostacolo alla configurazione in ambienti gestiti.
Il clic basato sulla visione può essere impreciso a seconda del modello/interfaccia utente, e le attività complesse potrebbero raggiungere i limiti dei round di strumenti.
Come usare LocalClicky
1) Conferma i requisiti: Usa macOS 12+, Python 3.11+, Homebrew e RAM libera sufficiente (~8GB+). Hai anche bisogno di Ollama in esecuzione localmente. Nota: il rilevamento della parola di attivazione predefinito utilizza Google Speech Recognition, quindi è necessaria una connessione internet per la funzione della parola di attivazione.
2) Installa Whisper.cpp (trascrizione locale): Esegui: `brew install whisper-cpp`
3) Scarica un file modello Whisper: Esegui:
`mkdir -p /opt/homebrew/share/whisper-cpp/models`
`curl -L -o /opt/homebrew/share/whisper-cpp/models/ggml-base.en.bin "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-base.en.bin"`
4) Installa Ollama (LLM locale + visione): Esegui: `brew install ollama`
5) Avvia il server Ollama: Esegui: `ollama serve` (lascialo in esecuzione).
6) Scarica i modelli predefiniti di LocalClicky: Esegui:
`ollama pull qwen3:8b` (modello di chiamata comando/strumento)
`ollama pull gemma4:e4b` (modello di visione utilizzato per la comprensione dello schermo)
7) Configura l'ambiente Python: Dalla repository, vai nella cartella dell'app e crea un venv:
`cd PyClicky`
`python3 -m venv venv`
`source venv/bin/activate`
`pip install -r requirements.txt`
8) (Opzionale) Installa il rilevamento del silenzio per un migliore comportamento di interruzione della registrazione: Installa VAD in modo che la registrazione si interrompa automaticamente quando smetti di parlare:
`pip install webrtcvad-wheels`
Senza questo, la registrazione si interrompe dopo un limite fisso di 30 secondi.
9) Esegui LocalClicky: Da `PyClicky/` con il venv attivo:
`source venv/bin/activate`
Se necessario, avvia Ollama in background: `ollama serve &`
Quindi esegui: `python main.py`
LocalClicky appare nella barra dei menu di macOS (nessuna icona nel Dock).
10) Concedi i permessi di macOS (una tantum): Concedi i permessi al binario Python del venv (`/path/to/PyClicky/venv/bin/python3`) o al Terminale (in modo che Python li erediti):
- Microfono: richiesto al primo avvio
- Registrazione schermo: Impostazioni di Sistema → Privacy e Sicurezza → Registrazione schermo
- Accessibilità: Impostazioni di Sistema → Privacy e Sicurezza → Accessibilità
Questi sono necessari per l'input vocale, gli screenshot per la visione e il controllo del cursore/clic.
11) Avvia una sessione vocale (parola di attivazione): Pronuncia “Computer” per avviare una sessione. LocalClicky inizia a registrare, quindi si interrompe automaticamente quando smetti di parlare (se VAD è installato), trascrive localmente e risponde.
12) Continua a impartire comandi senza ripetere la parola di attivazione: Dopo aver risposto, LocalClicky rimane in una sessione attiva e ascolta immediatamente il tuo prossimo comando (non è necessario ripetere “Computer”).
13) Usa comandi sensibili allo schermo (visione + controllo del cursore): Chiedigli di interagire con gli elementi dell'interfaccia utente, ad esempio “Clicca la campanella delle notifiche”. LocalClicky acquisirà uno screenshot (tramite `screencapture`), lo invierà al modello di visione locale, riceverà un riquadro di delimitazione e farà clic al centro usando PyAutoGUI.
14) Prova i comandi di esempio comuni: Esempi dal progetto:
- “Apri Spotify e riproduci hip hop”
- “Imposta il volume al 50 percento”
- “Apri una nuova scheda in Chrome”
- “Crea una cartella chiamata Progetti sul mio Desktop”
- “Cosa c'è sul mio schermo?”
- “Crea un promemoria per chiamare John domani alle 9 del mattino”
15) Termina la sessione: Pronuncia “ciao”, “arrivederci”, “smetti di ascoltare”, “vai a dormire” o “è tutto”. La sessione scade automaticamente anche dopo circa 25 secondi di silenzio (impostazione predefinita).
16) (Opzionale) Personalizza i modelli: Modifica `PyClicky/ollama_client.py`:
- `COMMAND_MODEL = "qwen3:8b"`
- `VISION_MODEL = "gemma4:e4b"`
Quindi scarica qualsiasi nuovo modello tu scelga tramite `ollama pull ...`.
17) (Opzionale) Personalizza la parola di attivazione e i timeout: Modifica:
- `PyClicky/wake_word.py` → `WAKE_PHRASES = [...]`
- `PyClicky/companion.py` → `SESSION_IDLE_TIMEOUT = 25.0`
18) Risolvi rapidamente i problemi se qualcosa fallisce: Correzioni comuni:
- La parola di attivazione non si attiva mai: la parola di attivazione utilizza Google Speech Recognition; assicurati di avere internet e controlla i log per `heard:`.
- Lo screenshot fallisce: concedi la Registrazione schermo; testa `screencapture -x -t jpg /tmp/test.jpg`.
- Il cursore non si muove: concedi l'Accessibilità.
- La registrazione non si interrompe mai: installa `webrtcvad-wheels`.
- Errori di Ollama: conferma che i modelli esistano con `ollama list`, riavvia `ollama serve`.
FAQ di LocalClicky
LocalClicky è un'app per la barra dei menu di macOS che ti consente di controllare il tuo Mac con la voce mantenendo tutto offline. Utilizza la trascrizione locale (Whisper.cpp), il ragionamento/visione AI locale (modelli Ollama come qwen3 e gemma4), la sintesi vocale integrata di macOS (`say`) e PyAutoGUI per il controllo del cursore/clic.
Video di LocalClicky
Articoli Popolari

Atoms: Una Piattaforma AI Multi-Agente Che Trasforma le Idee in Prodotti Pronti al Lancio
May 22, 2026

Nano Banana SBTI: Cos'è, come funziona e come usarlo nel 2026
Apr 15, 2026

Recensione di Atoms — Il builder di prodotti AI che ridefinisce la creazione digitale nel 2026
Apr 10, 2026

Kilo Claw: Come Distribuire e Utilizzare un Vero Agente AI "Fai-da-Te" (Aggiornamento 2026)
Apr 3, 2026







