¿LocalClicky envía mi voz, capturas de pantalla o comandos a la nube?

No, su "pipeline" principal está diseñado para que tu voz, capturas de pantalla y comandos permanezcan en tu máquina (sin APIs en la nube, sin claves de API, sin suscripciones). Sin embargo, la detección de la palabra de activación predeterminada utiliza el Reconocimiento de Voz de Google y, por lo tanto, requiere una conexión a Internet.

¿Qué puede hacer LocalClicky en mi Mac?

Puede abrir/cerrar aplicaciones, ajustar el volumen del sistema, controlar Spotify (reproducir/buscar/saltar/volumen), gestionar archivos y carpetas, ejecutar comandos de shell, inyectar JavaScript en Chrome, crear Recordatorios con fechas en lenguaje natural y mover/hacer clic con el ratón basándose en lo que ve en tu pantalla.

¿Cómo inicio y finalizo una sesión de voz?

Di "Computer" para iniciar una sesión. Después de que responda, permanece activo para que puedas emitir comandos de seguimiento sin repetir la palabra de activación. Di "bye", "goodbye", "stop listening", "go to sleep" o "that's all" para finalizar; también expira automáticamente después de 25 segundos de silencio.

¿Cómo hace clic LocalClicky en las cosas de la pantalla?

Cuando un comando requiere interacción con la pantalla, toma una captura de pantalla a través de `screencapture`, la redimensiona (ancho máximo predeterminado 1280px), la envía a un modelo de visión local (gemma4:e4b predeterminado a través de Ollama), recibe un cuadro delimitador como [CLICK:x1,y1,x2,y2], luego calcula el centro y hace clic usando PyAutoGUI.

¿Cuáles son los requisitos previos para ejecutar LocalClicky?

Necesitas macOS 12+, Python 3.11+, Homebrew, Ollama ejecutándose localmente y Whisper.cpp instalado (además de un archivo de modelo Whisper). El proyecto indica ~8GB de RAM libre para ejecutar los modelos y una conexión a Internet para la detección de la palabra de activación.

¿Qué permisos de macOS requiere LocalClicky?

Requiere permiso de Micrófono (grabación de voz), permiso de Grabación de Pantalla (capturas de pantalla para la visión) y permiso de Accesibilidad (movimiento/clics del cursor). Estos deben concederse al binario `python3` en el entorno virtual del proyecto (o a Terminal si Python no es seleccionable).

LocalClicky

WebsiteFreeAI Voice Assistants

LocalClicky es un asistente de voz de macOS completamente fuera de línea que utiliza transcripción local de Whisper, LLM locales de Ollama (incluida la visión) y PyAutoGUI para controlar su Mac, mover/hacer clic con el cursor y ejecutar comandos sin enviar sus datos a la nube.

Visitar Sitio Web

Anunciar Esta Herramienta

https://github.com/dikshantrajput/LocalClicky?ref=producthunt&utm_source=aipure

Resumen
Video
Alternativas

Información del Producto

Actualizado:08/06/2026

¿Qué es LocalClicky?

LocalClicky es una aplicación de barra de menú de código abierto para macOS que le permite controlar su computadora con su voz mientras mantiene su voz, capturas de pantalla y comandos completamente en el dispositivo. Está diseñada como una alternativa que prioriza la privacidad a los asistentes de voz en la nube: sin claves API, sin suscripciones y sin procesamiento externo en la nube para la transcripción o el razonamiento. Puede usarla para abrir y cerrar aplicaciones, ajustar la configuración del sistema, controlar Spotify, administrar archivos, ejecutar comandos de shell, crear recordatorios e incluso interactuar con elementos de la interfaz de usuario en pantalla a través de clics basados en la visión, todo desde una presencia ligera en la barra de menú que no estorba.

Características Principales de LocalClicky

LocalClicky es un asistente de voz para la barra de menú de macOS, "offline-first", que te permite controlar tu Mac con comandos de voz mientras mantiene la voz, las capturas de pantalla y el contexto de los comandos en el dispositivo. Utiliza whisper.cpp para la transcripción local, Ollama (por ejemplo, qwen3 para llamadas a herramientas y gemma4 para visión) para el razonamiento y la comprensión de la pantalla, y automatización de macOS/Python (AppleScript, shell, PyAutoGUI) para ejecutar acciones como abrir aplicaciones, gestionar archivos, controlar Spotify, crear recordatorios y hacer clic en elementos de la interfaz de usuario basándose en lo que hay en tu pantalla. Admite flujos de trabajo de varios pasos basados en sesiones con detección de actividad de voz, "visión" de pantalla opcional bajo demanda y memoria conversacional a corto plazo.

Procesamiento totalmente local (privacidad primero): La transcripción (whisper.cpp), el razonamiento/visión (modelos Ollama) y la ejecución ocurren en tu máquina; sin APIs en la nube, sin claves de API y sin suscripciones para la funcionalidad principal.

Compañero de la barra de menú con modo de sesión: Se ejecuta silenciosamente como una aplicación de la barra de menú (sin icono en el Dock) y admite una frase de activación ("Computer") para iniciar una sesión, luego acepta comandos consecutivos hasta que lo descartas o se agota el tiempo.

Grabación con detección de actividad de voz (VAD): Detiene automáticamente la grabación cuando dejas de hablar (con webrtcvad), evitando grabaciones de duración fija y acelerando los tiempos de respuesta de los comandos.

Visión de pantalla bajo demanda + clic en la interfaz de usuario: Cuando es necesario, captura una captura de pantalla, utiliza un modelo de visión para localizar elementos de la interfaz de usuario y mueve/hace clic en el cursor utilizando cuadros delimitadores para acciones como "hacer clic en la campana de notificaciones".

Automatización de Mac basada en herramientas: Puede ejecutar comandos de shell, consultar el estado del sistema, automatizar aplicaciones a través de AppleScript (por ejemplo, Spotify/Chrome), gestionar archivos y crear recordatorios a partir del lenguaje natural.

Llamadas a herramientas de varias rondas con verificación: Realiza flujos de trabajo de varios pasos (hasta varias rondas de herramientas), verifica los resultados y puede confirmar o reintentar acciones para completar tareas de manera más fiable.

Casos de Uso de LocalClicky

Productividad manos libres para trabajadores del conocimiento: Abrir/cerrar aplicaciones, gestionar pestañas, ajustar la configuración del sistema, crear recordatorios y ejecutar flujos de trabajo rápidos por voz mientras se mantiene la concentración en la tarea actual.

Accesibilidad e interacción reducida con el ratón: Ayuda a los usuarios que se benefician del control por voz al permitir el movimiento/clic del cursor y acciones comunes del sistema operativo/aplicaciones sin una navegación manual constante.

Automatización para desarrolladores y TI en una estación de trabajo: Activar comandos de shell, consultar información del sistema, gestionar archivos y orquestar la configuración/diagnóstico de rutina por voz, todo localmente para entornos sensibles.

Guía de software creativo y navegación de la interfaz de usuario: Utilizar el puntero/clic consciente de la pantalla para navegar por interfaces de usuario complejas (por ejemplo, herramientas de diseño/video) y ejecutar acciones repetitivas de la interfaz de forma más rápida.

Flujos de trabajo sensibles a la privacidad (regulados o confidenciales): Adecuado para escenarios en los que los datos de pantalla/audio no deben salir del dispositivo, ya que la transcripción y la visión pueden ejecutarse localmente y no se requieren claves en la nube.

Ventajas

Orientado a la privacidad: la voz, las capturas de pantalla y los comandos están diseñados para permanecer en el dispositivo (sin APIs en la nube para el pipeline principal).

Amplio control de Mac: combina la transcripción de voz, la llamada a herramientas LLM local y la automatización (shell/AppleScript/PyAutoGUI) para tareas prácticas.

Interacción basada en sesiones: admite comandos encadenados sin repetir la palabra de activación, mejorando la usabilidad para el trabajo de varios pasos.

Desventajas

La detección de la palabra de activación requiere internet (usa Google Speech Recognition), por lo que no es completamente offline de extremo a extremo por defecto.

Se requieren permisos de macOS (Micrófono, Grabación de pantalla, Accesibilidad), lo que puede ser un obstáculo de configuración en entornos gestionados.

El clic basado en la visión puede ser impreciso dependiendo del modelo/UI, y las tareas complejas pueden alcanzar los límites de las rondas de herramientas.

Cómo Usar LocalClicky

1) Confirmar requisitos: Use macOS 12+, Python 3.11+, Homebrew y suficiente RAM libre (~8GB+). También necesita Ollama ejecutándose localmente. Nota: la detección de la palabra de activación predeterminada utiliza el Reconocimiento de voz de Google, por lo que se requiere una conexión a Internet para la función de palabra de activación.

2) Instalar Whisper.cpp (transcripción local): Ejecute: `brew install whisper-cpp`

3) Descargar un archivo de modelo Whisper: Ejecute: `mkdir -p /opt/homebrew/share/whisper-cpp/models` `curl -L -o /opt/homebrew/share/whisper-cpp/models/ggml-base.en.bin "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-base.en.bin"`

4) Instalar Ollama (LLM local + visión): Ejecute: `brew install ollama`

5) Iniciar el servidor Ollama: Ejecute: `ollama serve` (déjelo ejecutándose).

6) Descargar los modelos predeterminados de LocalClicky: Ejecute: `ollama pull qwen3:8b` (modelo de comandos/llamadas a herramientas) `ollama pull gemma4:e4b` (modelo de visión utilizado para la comprensión de la pantalla)

7) Configurar el entorno de Python: Desde el repositorio, vaya a la carpeta de la aplicación y cree un venv: `cd PyClicky` `python3 -m venv venv` `source venv/bin/activate` `pip install -r requirements.txt`

8) (Opcional) Instalar detección de silencio para un mejor comportamiento de detención de grabación: Instale VAD para que la grabación se detenga automáticamente cuando deje de hablar: `pip install webrtcvad-wheels` Sin esto, la grabación vuelve a un límite de 30 segundos.

9) Ejecutar LocalClicky: Desde `PyClicky/` con el venv activo: `source venv/bin/activate` Si es necesario, inicie Ollama en segundo plano: `ollama serve &` Luego ejecute: `python main.py` LocalClicky aparece en la barra de menú de macOS (sin icono en el Dock).

10) Otorgar permisos de macOS (una sola vez): Otorgue permisos al binario de Python del venv (`/path/to/PyClicky/venv/bin/python3`) o a Terminal (para que Python los herede): - Micrófono: se le pedirá en la primera ejecución - Grabación de pantalla: Configuración del sistema → Privacidad y seguridad → Grabación de pantalla - Accesibilidad: Configuración del sistema → Privacidad y seguridad → Accesibilidad Estos son necesarios para la entrada de voz, las capturas de pantalla para la visión y el control del cursor/clic.

11) Iniciar una sesión de voz (palabra de activación): Diga “Computer” para iniciar una sesión. LocalClicky comienza a grabar, luego se detiene automáticamente cuando deja de hablar (si VAD está instalado), transcribe localmente y responde.

12) Continuar emitiendo comandos sin repetir la palabra de activación: Después de que responda, LocalClicky permanece en una sesión activa y escucha su próximo comando inmediatamente (no necesita decir “Computer” de nuevo).

13) Usar comandos conscientes de la pantalla (visión + control del cursor): Pídale que interactúe con elementos de la interfaz de usuario, por ejemplo, “Haz clic en la campana de notificaciones”. LocalClicky tomará una captura de pantalla (a través de `screencapture`), la enviará al modelo de visión local, recibirá un cuadro delimitador y hará clic en el centro usando PyAutoGUI.

14) Probar comandos de ejemplo comunes: Ejemplos del proyecto: - “Abre Spotify y reproduce hip hop” - “Establece el volumen al 50 por ciento” - “Abre una nueva pestaña en Chrome” - “Crea una carpeta llamada Proyectos en mi Escritorio” - “¿Qué hay en mi pantalla?” - “Crea un recordatorio para llamar a John mañana a las 9 am”

15) Finalizar la sesión: Diga “adiós”, “hasta luego”, “deja de escuchar”, “vete a dormir” o “eso es todo”. La sesión también expira automáticamente después de ~25 segundos de silencio (predeterminado).

16) (Opcional) Personalizar modelos: Edite `PyClicky/ollama_client.py`: - `COMMAND_MODEL = "qwen3:8b"` - `VISION_MODEL = "gemma4:e4b"` Luego descargue cualquier modelo nuevo que elija a través de `ollama pull ...`.

17) (Opcional) Personalizar palabra de activación y tiempos de espera: Edite: - `PyClicky/wake_word.py` → `WAKE_PHRASES = [...]` - `PyClicky/companion.py` → `SESSION_IDLE_TIMEOUT = 25.0`

18) Solucionar problemas rápidamente si algo falla: Soluciones comunes: - La palabra de activación nunca se activa: la palabra de activación utiliza el Reconocimiento de voz de Google; asegúrese de tener internet y revise los registros para `heard:`. - La captura de pantalla falla: otorgue permiso de Grabación de pantalla; pruebe `screencapture -x -t jpg /tmp/test.jpg`. - El cursor no se mueve: otorgue permiso de Accesibilidad. - La grabación nunca se detiene: instale `webrtcvad-wheels`. - Errores de Ollama: confirme que los modelos existen con `ollama list`, reinicie `ollama serve`.

Preguntas Frecuentes de LocalClicky

LocalClicky es una aplicación para la barra de menú de macOS que te permite controlar tu Mac con tu voz, manteniendo todo sin conexión. Utiliza transcripción local (Whisper.cpp), razonamiento/visión de IA local (modelos Ollama como qwen3 y gemma4), la función de texto a voz integrada de macOS (`say`), y PyAutoGUI para el control del cursor/clics.

Video de LocalClicky

Artículos Populares

Atoms: Una Plataforma de IA Multiagente Que Transforma Ideas en Productos Listos para Lanzar

May 22, 2026

Nano Banana SBTI: Qué es, cómo funciona y cómo usarlo en 2026

Apr 15, 2026

Reseña de Atoms: El Constructor de Productos de IA que Redefine la Creación Digital en 2026

Apr 10, 2026

Kilo Claw: Cómo implementar y usar un verdadero agente de IA "Hágalo por usted" (Actualización 2026)

Apr 3, 2026

Últimas herramientas de IA similares a LocalClicky

Advanced Voice

Free TrialAI Speech Recognition AI Voice Assistants

Advanced Voice es la característica de interacción por voz de vanguardia de ChatGPT que permite conversaciones naturales por voz en tiempo real con instrucciones personalizadas, múltiples opciones de voz y acentos mejorados para una comunicación fluida entre humanos e IA.

Vagent

FreeAI Voice Assistants Text to Speech

Vagent es una interfaz de voz ligera que permite a los usuarios interactuar con agentes de IA personalizados a través de comandos de voz, proporcionando una forma natural e intuitiva de controlar automatizaciones con soporte para más de 60 idiomas.

Vapify

Contact for PricingAI Voice Assistants No-Code & Low-Code AI Customer Service Assistant

Vapify es una plataforma de etiqueta blanca que permite a las agencias ofrecer soluciones de IA de voz de Vapi.ai bajo su propia marca mientras mantienen el control sobre las relaciones con los clientes y maximizan los ingresos.

Wedding Speech Genie

PaidAI Script Writing AI Speech Recognition AI Voice Assistants

Wedding Speech Genie es una plataforma impulsada por IA que elabora discursos de boda personalizados en minutos generando 3 versiones personalizadas basadas en tu entrada, ayudando a los oradores a ofrecer brindis memorables para cualquier papel en la boda.

Herramientas de IA populares como LocalClicky

Microsoft Dragon Copilot

Contact for PricingAI Voice Assistants Healthcare

Microsoft Dragon Copilot es un asistente de flujo de trabajo clínico impulsado por IA que combina el dictado por voz en lenguaje natural, las capacidades de escucha ambiental y la IA generativa para agilizar la documentación, mostrar información y automatizar tareas en entornos de atención médica.

Edge Copilot Mode

FreeAI Browsers Builder AI Voice Assistants

El Modo Copilot de Edge es la función experimental de navegador impulsada por IA de Microsoft que combina búsqueda, chat y navegación web en una sola interfaz, lo que permite a los usuarios navegar de manera más inteligente con la asistencia de la IA, manteniendo la privacidad y el control.

GibberLink

FreeAI Voice Assistants

GibberLink es un proyecto de código abierto que permite a dos agentes de IA comunicarse de manera eficiente cambiando del lenguaje humano a un protocolo de nivel de sonido después de reconocerse entre sí, impulsado por la tecnología ggwave.

Llama MacOS Desktop Controller

FreeAI Voice Assistants

Llama MacOS Desktop Controller es una aplicación basada en React y Flask que permite a los usuarios controlar las acciones del sistema macOS a través de comandos en lenguaje natural utilizando código Python generado por LLM.

Clasificación

Enviar y PromoverNew

LocalClicky

Información del Producto

¿Qué es LocalClicky?

Características Principales de LocalClicky

Casos de Uso de LocalClicky

Ventajas

Desventajas

Cómo Usar LocalClicky

Preguntas Frecuentes de LocalClicky

1. ¿Qué es LocalClicky?

2. ¿LocalClicky envía mi voz, capturas de pantalla o comandos a la nube?

3. ¿Qué puede hacer LocalClicky en mi Mac?

4. ¿Cómo inicio y finalizo una sesión de voz?

5. ¿Cómo hace clic LocalClicky en las cosas de la pantalla?

6. ¿Cuáles son los requisitos previos para ejecutar LocalClicky?

7. ¿Qué permisos de macOS requiere LocalClicky?

8. undefined

Video de LocalClicky

Artículos Populares

Últimas herramientas de IA similares a LocalClicky

Herramientas de IA populares como LocalClicky