
LocalClicky
LocalClicky es un asistente de voz de macOS completamente fuera de línea que utiliza transcripción local de Whisper, LLM locales de Ollama (incluida la visión) y PyAutoGUI para controlar su Mac, mover/hacer clic con el cursor y ejecutar comandos sin enviar sus datos a la nube.
https://github.com/dikshantrajput/LocalClicky?ref=producthunt&utm_source=aipure

Información del Producto
Actualizado:08/06/2026
¿Qué es LocalClicky?
LocalClicky es una aplicación de barra de menú de código abierto para macOS que le permite controlar su computadora con su voz mientras mantiene su voz, capturas de pantalla y comandos completamente en el dispositivo. Está diseñada como una alternativa que prioriza la privacidad a los asistentes de voz en la nube: sin claves API, sin suscripciones y sin procesamiento externo en la nube para la transcripción o el razonamiento. Puede usarla para abrir y cerrar aplicaciones, ajustar la configuración del sistema, controlar Spotify, administrar archivos, ejecutar comandos de shell, crear recordatorios e incluso interactuar con elementos de la interfaz de usuario en pantalla a través de clics basados en la visión, todo desde una presencia ligera en la barra de menú que no estorba.
Características Principales de LocalClicky
LocalClicky es un asistente de voz para la barra de menú de macOS, "offline-first", que te permite controlar tu Mac con comandos de voz mientras mantiene la voz, las capturas de pantalla y el contexto de los comandos en el dispositivo. Utiliza whisper.cpp para la transcripción local, Ollama (por ejemplo, qwen3 para llamadas a herramientas y gemma4 para visión) para el razonamiento y la comprensión de la pantalla, y automatización de macOS/Python (AppleScript, shell, PyAutoGUI) para ejecutar acciones como abrir aplicaciones, gestionar archivos, controlar Spotify, crear recordatorios y hacer clic en elementos de la interfaz de usuario basándose en lo que hay en tu pantalla. Admite flujos de trabajo de varios pasos basados en sesiones con detección de actividad de voz, "visión" de pantalla opcional bajo demanda y memoria conversacional a corto plazo.
Procesamiento totalmente local (privacidad primero): La transcripción (whisper.cpp), el razonamiento/visión (modelos Ollama) y la ejecución ocurren en tu máquina; sin APIs en la nube, sin claves de API y sin suscripciones para la funcionalidad principal.
Compañero de la barra de menú con modo de sesión: Se ejecuta silenciosamente como una aplicación de la barra de menú (sin icono en el Dock) y admite una frase de activación ("Computer") para iniciar una sesión, luego acepta comandos consecutivos hasta que lo descartas o se agota el tiempo.
Grabación con detección de actividad de voz (VAD): Detiene automáticamente la grabación cuando dejas de hablar (con webrtcvad), evitando grabaciones de duración fija y acelerando los tiempos de respuesta de los comandos.
Visión de pantalla bajo demanda + clic en la interfaz de usuario: Cuando es necesario, captura una captura de pantalla, utiliza un modelo de visión para localizar elementos de la interfaz de usuario y mueve/hace clic en el cursor utilizando cuadros delimitadores para acciones como "hacer clic en la campana de notificaciones".
Automatización de Mac basada en herramientas: Puede ejecutar comandos de shell, consultar el estado del sistema, automatizar aplicaciones a través de AppleScript (por ejemplo, Spotify/Chrome), gestionar archivos y crear recordatorios a partir del lenguaje natural.
Llamadas a herramientas de varias rondas con verificación: Realiza flujos de trabajo de varios pasos (hasta varias rondas de herramientas), verifica los resultados y puede confirmar o reintentar acciones para completar tareas de manera más fiable.
Casos de Uso de LocalClicky
Productividad manos libres para trabajadores del conocimiento: Abrir/cerrar aplicaciones, gestionar pestañas, ajustar la configuración del sistema, crear recordatorios y ejecutar flujos de trabajo rápidos por voz mientras se mantiene la concentración en la tarea actual.
Accesibilidad e interacción reducida con el ratón: Ayuda a los usuarios que se benefician del control por voz al permitir el movimiento/clic del cursor y acciones comunes del sistema operativo/aplicaciones sin una navegación manual constante.
Automatización para desarrolladores y TI en una estación de trabajo: Activar comandos de shell, consultar información del sistema, gestionar archivos y orquestar la configuración/diagnóstico de rutina por voz, todo localmente para entornos sensibles.
Guía de software creativo y navegación de la interfaz de usuario: Utilizar el puntero/clic consciente de la pantalla para navegar por interfaces de usuario complejas (por ejemplo, herramientas de diseño/video) y ejecutar acciones repetitivas de la interfaz de forma más rápida.
Flujos de trabajo sensibles a la privacidad (regulados o confidenciales): Adecuado para escenarios en los que los datos de pantalla/audio no deben salir del dispositivo, ya que la transcripción y la visión pueden ejecutarse localmente y no se requieren claves en la nube.
Ventajas
Orientado a la privacidad: la voz, las capturas de pantalla y los comandos están diseñados para permanecer en el dispositivo (sin APIs en la nube para el pipeline principal).
Amplio control de Mac: combina la transcripción de voz, la llamada a herramientas LLM local y la automatización (shell/AppleScript/PyAutoGUI) para tareas prácticas.
Interacción basada en sesiones: admite comandos encadenados sin repetir la palabra de activación, mejorando la usabilidad para el trabajo de varios pasos.
Desventajas
La detección de la palabra de activación requiere internet (usa Google Speech Recognition), por lo que no es completamente offline de extremo a extremo por defecto.
Se requieren permisos de macOS (Micrófono, Grabación de pantalla, Accesibilidad), lo que puede ser un obstáculo de configuración en entornos gestionados.
El clic basado en la visión puede ser impreciso dependiendo del modelo/UI, y las tareas complejas pueden alcanzar los límites de las rondas de herramientas.
Cómo Usar LocalClicky
1) Confirmar requisitos: Use macOS 12+, Python 3.11+, Homebrew y suficiente RAM libre (~8GB+). También necesita Ollama ejecutándose localmente. Nota: la detección de la palabra de activación predeterminada utiliza el Reconocimiento de voz de Google, por lo que se requiere una conexión a Internet para la función de palabra de activación.
2) Instalar Whisper.cpp (transcripción local): Ejecute: `brew install whisper-cpp`
3) Descargar un archivo de modelo Whisper: Ejecute:
`mkdir -p /opt/homebrew/share/whisper-cpp/models`
`curl -L -o /opt/homebrew/share/whisper-cpp/models/ggml-base.en.bin "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-base.en.bin"`
4) Instalar Ollama (LLM local + visión): Ejecute: `brew install ollama`
5) Iniciar el servidor Ollama: Ejecute: `ollama serve` (déjelo ejecutándose).
6) Descargar los modelos predeterminados de LocalClicky: Ejecute:
`ollama pull qwen3:8b` (modelo de comandos/llamadas a herramientas)
`ollama pull gemma4:e4b` (modelo de visión utilizado para la comprensión de la pantalla)
7) Configurar el entorno de Python: Desde el repositorio, vaya a la carpeta de la aplicación y cree un venv:
`cd PyClicky`
`python3 -m venv venv`
`source venv/bin/activate`
`pip install -r requirements.txt`
8) (Opcional) Instalar detección de silencio para un mejor comportamiento de detención de grabación: Instale VAD para que la grabación se detenga automáticamente cuando deje de hablar:
`pip install webrtcvad-wheels`
Sin esto, la grabación vuelve a un límite de 30 segundos.
9) Ejecutar LocalClicky: Desde `PyClicky/` con el venv activo:
`source venv/bin/activate`
Si es necesario, inicie Ollama en segundo plano: `ollama serve &`
Luego ejecute: `python main.py`
LocalClicky aparece en la barra de menú de macOS (sin icono en el Dock).
10) Otorgar permisos de macOS (una sola vez): Otorgue permisos al binario de Python del venv (`/path/to/PyClicky/venv/bin/python3`) o a Terminal (para que Python los herede):
- Micrófono: se le pedirá en la primera ejecución
- Grabación de pantalla: Configuración del sistema → Privacidad y seguridad → Grabación de pantalla
- Accesibilidad: Configuración del sistema → Privacidad y seguridad → Accesibilidad
Estos son necesarios para la entrada de voz, las capturas de pantalla para la visión y el control del cursor/clic.
11) Iniciar una sesión de voz (palabra de activación): Diga “Computer” para iniciar una sesión. LocalClicky comienza a grabar, luego se detiene automáticamente cuando deja de hablar (si VAD está instalado), transcribe localmente y responde.
12) Continuar emitiendo comandos sin repetir la palabra de activación: Después de que responda, LocalClicky permanece en una sesión activa y escucha su próximo comando inmediatamente (no necesita decir “Computer” de nuevo).
13) Usar comandos conscientes de la pantalla (visión + control del cursor): Pídale que interactúe con elementos de la interfaz de usuario, por ejemplo, “Haz clic en la campana de notificaciones”. LocalClicky tomará una captura de pantalla (a través de `screencapture`), la enviará al modelo de visión local, recibirá un cuadro delimitador y hará clic en el centro usando PyAutoGUI.
14) Probar comandos de ejemplo comunes: Ejemplos del proyecto:
- “Abre Spotify y reproduce hip hop”
- “Establece el volumen al 50 por ciento”
- “Abre una nueva pestaña en Chrome”
- “Crea una carpeta llamada Proyectos en mi Escritorio”
- “¿Qué hay en mi pantalla?”
- “Crea un recordatorio para llamar a John mañana a las 9 am”
15) Finalizar la sesión: Diga “adiós”, “hasta luego”, “deja de escuchar”, “vete a dormir” o “eso es todo”. La sesión también expira automáticamente después de ~25 segundos de silencio (predeterminado).
16) (Opcional) Personalizar modelos: Edite `PyClicky/ollama_client.py`:
- `COMMAND_MODEL = "qwen3:8b"`
- `VISION_MODEL = "gemma4:e4b"`
Luego descargue cualquier modelo nuevo que elija a través de `ollama pull ...`.
17) (Opcional) Personalizar palabra de activación y tiempos de espera: Edite:
- `PyClicky/wake_word.py` → `WAKE_PHRASES = [...]`
- `PyClicky/companion.py` → `SESSION_IDLE_TIMEOUT = 25.0`
18) Solucionar problemas rápidamente si algo falla: Soluciones comunes:
- La palabra de activación nunca se activa: la palabra de activación utiliza el Reconocimiento de voz de Google; asegúrese de tener internet y revise los registros para `heard:`.
- La captura de pantalla falla: otorgue permiso de Grabación de pantalla; pruebe `screencapture -x -t jpg /tmp/test.jpg`.
- El cursor no se mueve: otorgue permiso de Accesibilidad.
- La grabación nunca se detiene: instale `webrtcvad-wheels`.
- Errores de Ollama: confirme que los modelos existen con `ollama list`, reinicie `ollama serve`.
Preguntas Frecuentes de LocalClicky
LocalClicky es una aplicación para la barra de menú de macOS que te permite controlar tu Mac con tu voz, manteniendo todo sin conexión. Utiliza transcripción local (Whisper.cpp), razonamiento/visión de IA local (modelos Ollama como qwen3 y gemma4), la función de texto a voz integrada de macOS (`say`), y PyAutoGUI para el control del cursor/clics.
Video de LocalClicky
Artículos Populares

Atoms: Una Plataforma de IA Multiagente Que Transforma Ideas en Productos Listos para Lanzar
May 22, 2026

Nano Banana SBTI: Qué es, cómo funciona y cómo usarlo en 2026
Apr 15, 2026

Reseña de Atoms: El Constructor de Productos de IA que Redefine la Creación Digital en 2026
Apr 10, 2026

Kilo Claw: Cómo implementar y usar un verdadero agente de IA "Hágalo por usted" (Actualización 2026)
Apr 3, 2026







