
LocalClicky
LocalClicky é um assistente de voz macOS completamente offline que usa transcrição local Whisper, LLMs Ollama locais (incluindo visão) e PyAutoGUI para controlar seu Mac, mover/clicar o cursor e executar comandos sem enviar seus dados para a nuvem.
https://github.com/dikshantrajput/LocalClicky?ref=producthunt&utm_source=aipure

Informações do Produto
Atualizado:Jun 8, 2026
O que é LocalClicky
LocalClicky é um aplicativo de menubar de código aberto para macOS que permite controlar seu computador com sua voz, mantendo sua voz, capturas de tela e comandos inteiramente no dispositivo. Ele é projetado como uma alternativa que prioriza a privacidade aos assistentes de voz na nuvem: sem chaves de API, sem assinaturas e sem processamento externo na nuvem para transcrição ou raciocínio. Você pode usá-lo para abrir e fechar aplicativos, ajustar configurações do sistema, controlar o Spotify, gerenciar arquivos, executar comandos de shell, criar Lembretes e até mesmo interagir com elementos da interface do usuário na tela por meio de cliques baseados em visão – tudo a partir de uma presença leve na barra de menus que não atrapalha.
Principais Recursos do LocalClicky
LocalClicky é um assistente de voz para a barra de menus do macOS, "offline-first", que permite controlar o seu Mac com comandos de voz, mantendo a voz, capturas de tela e o contexto dos comandos no dispositivo. Ele usa whisper.cpp para transcrição local, Ollama (por exemplo, qwen3 para "tool-calling" e gemma4 para visão) para raciocínio e compreensão da tela, e automação macOS/Python (AppleScript, shell, PyAutoGUI) para executar ações como abrir aplicativos, gerenciar arquivos, controlar o Spotify, criar lembretes e clicar em elementos da interface do usuário com base no que está na sua tela. Ele suporta fluxos de trabalho multi-etapas baseados em sessão com detecção de atividade de voz, "visão" de tela opcional sob demanda e memória conversacional de curto prazo.
Processamento totalmente local (privacidade em primeiro lugar): Transcrição (whisper.cpp), raciocínio/visão (modelos Ollama) e execução acontecem na sua máquina – sem APIs de nuvem, sem chaves de API e sem assinaturas para a funcionalidade principal.
Companheiro da barra de menus com modo de sessão: Executa silenciosamente como um aplicativo da barra de menus (sem ícone no Dock) e suporta uma frase de ativação ("Computer") para iniciar uma sessão, então aceita comandos consecutivos até que você o dispense ou ele expire.
Gravação com Detecção de Atividade de Voz (VAD): Para automaticamente a gravação quando você para de falar (com webrtcvad), evitando gravações de duração fixa e acelerando as respostas aos comandos.
Visão de tela sob demanda + clique na interface do usuário: Quando necessário, ele captura uma captura de tela, usa um modelo de visão para localizar elementos da interface do usuário e move/clica o cursor usando caixas delimitadoras para ações como "clicar no sino de notificação".
Automação do Mac baseada em ferramentas: Pode executar comandos de shell, consultar o estado do sistema, automatizar aplicativos via AppleScript (por exemplo, Spotify/Chrome), gerenciar arquivos e criar Lembretes a partir de linguagem natural.
Chamada de ferramenta multi-rodada com verificação: Executa fluxos de trabalho multi-etapas (até várias rodadas de ferramentas), verifica os resultados e pode confirmar ou tentar novamente as ações para concluir as tarefas de forma mais confiável.
Casos de Uso do LocalClicky
Produtividade sem as mãos para trabalhadores do conhecimento: Abra/feche aplicativos, gerencie abas, ajuste configurações do sistema, crie lembretes e execute fluxos de trabalho rápidos por voz, mantendo o foco na tarefa atual.
Acessibilidade e interação reduzida com o mouse: Ajuda usuários que se beneficiam do controle por voz, permitindo o movimento/clique do cursor e ações comuns do SO/aplicativos sem navegação manual constante.
Automação para desenvolvedores e TI em uma estação de trabalho: Acione comandos de shell, consulte informações do sistema, gerencie arquivos e orquestre configurações/diagnósticos de rotina por voz, tudo localmente para ambientes sensíveis.
Orientação de software criativo e navegação na interface do usuário: Use o apontamento/clique ciente da tela para navegar em interfaces de usuário complexas (por exemplo, ferramentas de design/vídeo) e execute ações repetitivas da interface mais rapidamente.
Fluxos de trabalho sensíveis à privacidade (regulamentados ou confidenciais): Adequado para cenários onde dados de tela/áudio não devem sair do dispositivo, já que a transcrição e a visão podem ser executadas localmente e nenhuma chave de nuvem é necessária.
Vantagens
Foco na privacidade: voz, capturas de tela e comandos são projetados para permanecer no dispositivo (sem APIs de nuvem para o pipeline principal).
Amplo controle do Mac: combina transcrição de voz, "tool-calling" local de LLM e automação (shell/AppleScript/PyAutoGUI) para tarefas práticas.
Interação baseada em sessão: suporta comandos encadeados sem repetir a palavra de ativação, melhorando a usabilidade para trabalhos multi-etapas.
Desvantagens
A detecção da palavra de ativação requer internet (usa Google Speech Recognition), então não é totalmente offline de ponta a ponta por padrão.
São necessárias permissões do macOS (Microfone, Gravação de Tela, Acessibilidade), o que pode ser um obstáculo na configuração em ambientes gerenciados.
O clique baseado em visão pode ser impreciso dependendo do modelo/UI, e tarefas complexas podem atingir os limites de rodadas de ferramentas.
Como Usar o LocalClicky
1) Confirmar requisitos: Use macOS 12+, Python 3.11+, Homebrew e RAM livre suficiente (~8GB+). Você também precisa do Ollama rodando localmente. Nota: a detecção padrão da palavra de ativação usa o Google Speech Recognition, então uma conexão com a internet é necessária para o recurso de palavra de ativação.
2) Instalar Whisper.cpp (transcrição local): Execute: `brew install whisper-cpp`
3) Baixar um arquivo de modelo Whisper: Execute:
`mkdir -p /opt/homebrew/share/whisper-cpp/models`
`curl -L -o /opt/homebrew/share/whisper-cpp/models/ggml-base.en.bin "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-base.en.bin"`
4) Instalar Ollama (LLM + visão local): Execute: `brew install ollama`
5) Iniciar o servidor Ollama: Execute: `ollama serve` (deixe-o rodando).
6) Puxar os modelos padrão do LocalClicky: Execute:
`ollama pull qwen3:8b` (modelo de comando/chamada de ferramenta)
`ollama pull gemma4:e4b` (modelo de visão usado para compreensão da tela)
7) Configurar o ambiente Python: Do repositório, vá para a pasta do aplicativo e crie um venv:
`cd PyClicky`
`python3 -m venv venv`
`source venv/bin/activate`
`pip install -r requirements.txt`
8) (Opcional) Instalar detecção de silêncio para um melhor comportamento de parada de gravação: Instale o VAD para que a gravação pare automaticamente quando você parar de falar:
`pip install webrtcvad-wheels`
Sem isso, a gravação volta para um limite máximo de 30 segundos.
9) Executar LocalClicky: De `PyClicky/` com o venv ativo:
`source venv/bin/activate`
Se necessário, inicie o Ollama em segundo plano: `ollama serve &`
Em seguida, execute: `python main.py`
LocalClicky aparece na barra de menus do macOS (sem ícone no Dock).
10) Conceder permissões do macOS (uma única vez): Conceda permissões ao binário Python do venv (`/path/to/PyClicky/venv/bin/python3`) ou ao Terminal (para que o Python as herde):
- Microfone: solicitado na primeira execução
- Gravação de Tela: Ajustes do Sistema → Privacidade e Segurança → Gravação de Tela
- Acessibilidade: Ajustes do Sistema → Privacidade e Segurança → Acessibilidade
Estas são necessárias para entrada de voz, capturas de tela para visão e controle de cursor/clique.
11) Iniciar uma sessão de voz (palavra de ativação): Diga “Computer” para iniciar uma sessão. O LocalClicky começa a gravar, então para automaticamente quando você para de falar (se o VAD estiver instalado), transcreve localmente e responde.
12) Continuar emitindo comandos sem repetir a palavra de ativação: Depois de responder, o LocalClicky permanece em uma sessão ativa e ouve seu próximo comando imediatamente (você não precisa dizer “Computer” novamente).
13) Usar comandos conscientes da tela (visão + controle do cursor): Peça para ele interagir com elementos da interface do usuário, por exemplo, “Clique no sino de notificação.” O LocalClicky fará uma captura de tela (via `screencapture`), a enviará para o modelo de visão local, receberá uma caixa delimitadora e clicará no centro usando PyAutoGUI.
14) Experimentar comandos de exemplo comuns: Exemplos do projeto:
- “Abrir Spotify e tocar hip hop”
- “Definir volume para 50 por cento”
- “Abrir uma nova aba no Chrome”
- “Criar uma pasta chamada Projetos na minha Área de Trabalho”
- “O que está na minha tela?”
- “Criar um lembrete para ligar para John amanhã às 9h”
15) Encerrar a sessão: Diga “tchau”, “adeus”, “parar de ouvir”, “ir dormir” ou “é tudo”. A sessão também expira automaticamente após ~25 segundos de silêncio (padrão).
16) (Opcional) Personalizar modelos: Edite `PyClicky/ollama_client.py`:
- `COMMAND_MODEL = "qwen3:8b"`
- `VISION_MODEL = "gemma4:e4b"`
Em seguida, puxe qualquer novo modelo que você escolher via `ollama pull ...`.
17) (Opcional) Personalizar palavra de ativação e tempos limite: Edite:
- `PyClicky/wake_word.py` → `WAKE_PHRASES = [...]`
- `PyClicky/companion.py` → `SESSION_IDLE_TIMEOUT = 25.0`
18) Solucionar problemas rapidamente se algo falhar: Correções comuns:
- A palavra de ativação nunca dispara: a palavra de ativação usa o Google Speech Recognition; garanta a internet e verifique os logs para `heard:`.
- A captura de tela falha: conceda Gravação de Tela; teste `screencapture -x -t jpg /tmp/test.jpg`.
- O cursor não se move: conceda Acessibilidade.
- A gravação nunca para: instale `webrtcvad-wheels`.
- Erros do Ollama: confirme se os modelos existem com `ollama list`, reinicie `ollama serve`.
Perguntas Frequentes do LocalClicky
LocalClicky é um aplicativo para a barra de menus do macOS que permite controlar o seu Mac com a sua voz, mantendo tudo offline. Ele usa transcrição local (Whisper.cpp), raciocínio/visão de IA local (modelos Ollama como qwen3 e gemma4), text-to-speech integrado do macOS (`say`) e PyAutoGUI para controle de cursor/clique.
Vídeo do LocalClicky
Artigos Populares

Atoms: Uma Plataforma de IA Multiagente Que Transforma Ideias em Produtos Prontos para Lançamento
May 22, 2026

Nano Banana SBTI: O Que É, Como Funciona e Como Usá-lo em 2026
Apr 15, 2026

Análise do Atoms — O Construtor de Produtos de IA Redefinindo a Criação Digital em 2026
Apr 10, 2026

Kilo Claw: Como Implementar e Usar um Verdadeiro Agente de IA "Faça Você Mesmo" (Atualização de 2026)
Apr 3, 2026







