LocalClicky

LocalClicky

LocalClicky è un assistente vocale macOS completamente offline che utilizza la trascrizione locale Whisper, gli LLM locali di Ollama (inclusa la visione) e PyAutoGUI per controllare il tuo Mac, spostare/cliccare il cursore ed eseguire comandi senza inviare i tuoi dati al cloud.
https://github.com/dikshantrajput/LocalClicky?ref=producthunt&utm_source=aipure
LocalClicky

Informazioni sul Prodotto

Aggiornato:Jun 8, 2026

Cos'è LocalClicky

LocalClicky è un'app open-source per la barra dei menu di macOS che ti consente di controllare il tuo computer con la voce, mantenendo voce, screenshot e comandi interamente sul dispositivo. È progettata come un'alternativa incentrata sulla privacy agli assistenti vocali cloud: nessuna chiave API, nessun abbonamento e nessuna elaborazione cloud esterna per la trascrizione o il ragionamento. Puoi usarla per aprire e chiudere app, regolare le impostazioni di sistema, controllare Spotify, gestire file, eseguire comandi shell, creare promemoria e persino interagire con elementi dell'interfaccia utente sullo schermo tramite clic basati sulla visione, il tutto da una leggera presenza nella barra dei menu che non intralcia.

Caratteristiche principali di LocalClicky

LocalClicky è un assistente vocale per la barra dei menu di macOS, "offline-first", che ti permette di controllare il tuo Mac con comandi vocali mantenendo voce, screenshot e contesto dei comandi sul dispositivo. Utilizza whisper.cpp per la trascrizione locale, Ollama (ad esempio, qwen3 per il "tool-calling" e gemma4 per la visione) per il ragionamento e la comprensione dello schermo, e l'automazione di macOS/Python (AppleScript, shell, PyAutoGUI) per eseguire azioni come aprire app, gestire file, controllare Spotify, creare promemoria e cliccare elementi dell'interfaccia utente in base a ciò che è presente sullo schermo. Supporta flussi di lavoro multi-step basati su sessione con rilevamento dell'attività vocale, "visione" dello schermo opzionale su richiesta e memoria conversazionale a breve termine.
Elaborazione completamente locale (privacy-first): Trascrizione (whisper.cpp), ragionamento/visione (modelli Ollama) ed esecuzione avvengono sulla tua macchina: nessuna API cloud, nessuna chiave API e nessun abbonamento per le funzionalità principali.
Compagno della barra dei menu con modalità sessione: Funziona silenziosamente come app della barra dei menu (nessuna icona nel Dock) e supporta una frase di attivazione ("Computer") per avviare una sessione, quindi accetta comandi consecutivi finché non la chiudi o scade il tempo.
Registrazione con rilevamento dell'attività vocale (VAD): Interrompe automaticamente la registrazione quando smetti di parlare (con webrtcvad), evitando registrazioni a durata fissa e accelerando i tempi di risposta dei comandi.
Visione dello schermo su richiesta + clic sull'interfaccia utente: Quando necessario, cattura uno screenshot, utilizza un modello di visione per localizzare gli elementi dell'interfaccia utente e sposta/clicca il cursore utilizzando i "bounding box" per azioni come "clicca la campanella delle notifiche".
Automazione Mac basata su strumenti: Può eseguire comandi shell, interrogare lo stato del sistema, automatizzare app tramite AppleScript (ad esempio, Spotify/Chrome), gestire file e creare promemoria dal linguaggio naturale.
Chiamata di strumenti multi-round con verifica: Esegue flussi di lavoro multi-step (fino a diversi round di strumenti), controlla i risultati e può confermare o riprovare le azioni per completare le attività in modo più affidabile.

Casi d'uso di LocalClicky

Produttività a mani libere per i lavoratori della conoscenza: Apri/chiudi app, gestisci schede, regola le impostazioni di sistema, crea promemoria ed esegui flussi di lavoro rapidi tramite voce, rimanendo concentrato sull'attività corrente.
Accessibilità e interazione ridotta con il mouse: Aiuta gli utenti che beneficiano del controllo vocale consentendo il movimento/clic del cursore e le azioni comuni del sistema operativo/app senza una navigazione manuale costante.
Automazione per sviluppatori e IT su una workstation: Attiva comandi shell, interroga le informazioni di sistema, gestisci file e orchestra la configurazione/diagnostica di routine tramite voce, tutto localmente per ambienti sensibili.
Guida al software creativo e navigazione dell'interfaccia utente: Utilizza il puntamento/clic consapevole dello schermo per navigare interfacce utente complesse (ad esempio, strumenti di progettazione/video) ed eseguire azioni ripetitive dell'interfaccia più rapidamente.
Flussi di lavoro sensibili alla privacy (regolamentati o confidenziali): Adatto per scenari in cui i dati dello schermo/audio non devono lasciare il dispositivo, poiché la trascrizione e la visione possono essere eseguite localmente e non sono necessarie chiavi cloud.

Vantaggi

Attento alla privacy: voce, screenshot e comandi sono progettati per rimanere sul dispositivo (nessuna API cloud per la pipeline principale).
Ampio controllo Mac: combina trascrizione vocale, "tool-calling" LLM locale e automazione (shell/AppleScript/PyAutoGUI) per attività pratiche.
Interazione basata su sessione: supporta comandi concatenati senza ripetere la parola di attivazione, migliorando l'usabilità per il lavoro multi-step.

Svantaggi

Il rilevamento della parola di attivazione richiede Internet (utilizza Google Speech Recognition), quindi non è completamente offline end-to-end per impostazione predefinita.
Sono necessarie le autorizzazioni di macOS (Microfono, Registrazione schermo, Accessibilità), il che può essere un ostacolo alla configurazione in ambienti gestiti.
Il clic basato sulla visione può essere impreciso a seconda del modello/interfaccia utente, e le attività complesse potrebbero raggiungere i limiti dei round di strumenti.

Come usare LocalClicky

1) Conferma i requisiti: Usa macOS 12+, Python 3.11+, Homebrew e RAM libera sufficiente (~8GB+). Hai anche bisogno di Ollama in esecuzione localmente. Nota: il rilevamento della parola di attivazione predefinito utilizza Google Speech Recognition, quindi è necessaria una connessione internet per la funzione della parola di attivazione.
2) Installa Whisper.cpp (trascrizione locale): Esegui: `brew install whisper-cpp`
3) Scarica un file modello Whisper: Esegui: `mkdir -p /opt/homebrew/share/whisper-cpp/models` `curl -L -o /opt/homebrew/share/whisper-cpp/models/ggml-base.en.bin "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-base.en.bin"`
4) Installa Ollama (LLM locale + visione): Esegui: `brew install ollama`
5) Avvia il server Ollama: Esegui: `ollama serve` (lascialo in esecuzione).
6) Scarica i modelli predefiniti di LocalClicky: Esegui: `ollama pull qwen3:8b` (modello di chiamata comando/strumento) `ollama pull gemma4:e4b` (modello di visione utilizzato per la comprensione dello schermo)
7) Configura l'ambiente Python: Dalla repository, vai nella cartella dell'app e crea un venv: `cd PyClicky` `python3 -m venv venv` `source venv/bin/activate` `pip install -r requirements.txt`
8) (Opzionale) Installa il rilevamento del silenzio per un migliore comportamento di interruzione della registrazione: Installa VAD in modo che la registrazione si interrompa automaticamente quando smetti di parlare: `pip install webrtcvad-wheels` Senza questo, la registrazione si interrompe dopo un limite fisso di 30 secondi.
9) Esegui LocalClicky: Da `PyClicky/` con il venv attivo: `source venv/bin/activate` Se necessario, avvia Ollama in background: `ollama serve &` Quindi esegui: `python main.py` LocalClicky appare nella barra dei menu di macOS (nessuna icona nel Dock).
10) Concedi i permessi di macOS (una tantum): Concedi i permessi al binario Python del venv (`/path/to/PyClicky/venv/bin/python3`) o al Terminale (in modo che Python li erediti): - Microfono: richiesto al primo avvio - Registrazione schermo: Impostazioni di Sistema → Privacy e Sicurezza → Registrazione schermo - Accessibilità: Impostazioni di Sistema → Privacy e Sicurezza → Accessibilità Questi sono necessari per l'input vocale, gli screenshot per la visione e il controllo del cursore/clic.
11) Avvia una sessione vocale (parola di attivazione): Pronuncia “Computer” per avviare una sessione. LocalClicky inizia a registrare, quindi si interrompe automaticamente quando smetti di parlare (se VAD è installato), trascrive localmente e risponde.
12) Continua a impartire comandi senza ripetere la parola di attivazione: Dopo aver risposto, LocalClicky rimane in una sessione attiva e ascolta immediatamente il tuo prossimo comando (non è necessario ripetere “Computer”).
13) Usa comandi sensibili allo schermo (visione + controllo del cursore): Chiedigli di interagire con gli elementi dell'interfaccia utente, ad esempio “Clicca la campanella delle notifiche”. LocalClicky acquisirà uno screenshot (tramite `screencapture`), lo invierà al modello di visione locale, riceverà un riquadro di delimitazione e farà clic al centro usando PyAutoGUI.
14) Prova i comandi di esempio comuni: Esempi dal progetto: - “Apri Spotify e riproduci hip hop” - “Imposta il volume al 50 percento” - “Apri una nuova scheda in Chrome” - “Crea una cartella chiamata Progetti sul mio Desktop” - “Cosa c'è sul mio schermo?” - “Crea un promemoria per chiamare John domani alle 9 del mattino”
15) Termina la sessione: Pronuncia “ciao”, “arrivederci”, “smetti di ascoltare”, “vai a dormire” o “è tutto”. La sessione scade automaticamente anche dopo circa 25 secondi di silenzio (impostazione predefinita).
16) (Opzionale) Personalizza i modelli: Modifica `PyClicky/ollama_client.py`: - `COMMAND_MODEL = "qwen3:8b"` - `VISION_MODEL = "gemma4:e4b"` Quindi scarica qualsiasi nuovo modello tu scelga tramite `ollama pull ...`.
17) (Opzionale) Personalizza la parola di attivazione e i timeout: Modifica: - `PyClicky/wake_word.py` → `WAKE_PHRASES = [...]` - `PyClicky/companion.py` → `SESSION_IDLE_TIMEOUT = 25.0`
18) Risolvi rapidamente i problemi se qualcosa fallisce: Correzioni comuni: - La parola di attivazione non si attiva mai: la parola di attivazione utilizza Google Speech Recognition; assicurati di avere internet e controlla i log per `heard:`. - Lo screenshot fallisce: concedi la Registrazione schermo; testa `screencapture -x -t jpg /tmp/test.jpg`. - Il cursore non si muove: concedi l'Accessibilità. - La registrazione non si interrompe mai: installa `webrtcvad-wheels`. - Errori di Ollama: conferma che i modelli esistano con `ollama list`, riavvia `ollama serve`.

FAQ di LocalClicky

LocalClicky è un'app per la barra dei menu di macOS che ti consente di controllare il tuo Mac con la voce mantenendo tutto offline. Utilizza la trascrizione locale (Whisper.cpp), il ragionamento/visione AI locale (modelli Ollama come qwen3 e gemma4), la sintesi vocale integrata di macOS (`say`) e PyAutoGUI per il controllo del cursore/clic.

Ultimi Strumenti AI Simili a LocalClicky

Advanced Voice
Advanced Voice
Voice Avanzato è la funzionalità di interazione vocale all'avanguardia di ChatGPT che consente conversazioni vocali naturali in tempo reale con istruzioni personalizzate, molteplici opzioni vocali e accenti migliorati per una comunicazione senza soluzione di continuità tra uomo e IA.
Vagent
Vagent
Vagent è un'interfaccia vocale leggera che consente agli utenti di interagire con agenti AI personalizzati tramite comandi vocali, fornendo un modo naturale e intuitivo per controllare le automazioni con supporto per oltre 60 lingue.
Vapify
Vapify
Vapify è una piattaforma white-label che consente alle agenzie di offrire le soluzioni di AI vocale di Vapi.ai sotto il proprio marchio mantenendo il controllo sulle relazioni con i clienti e massimizzando i ricavi.
Wedding Speech Genie
Wedding Speech Genie
Wedding Speech Genie è una piattaforma alimentata dall'IA che crea discorsi di matrimonio personalizzati in pochi minuti generando 3 versioni personalizzate basate sul tuo input, aiutando i relatori a fare brindisi memorabili per qualsiasi ruolo al matrimonio.