LocalClicky

LocalClicky

LocalClicky est un assistant vocal macOS entièrement hors ligne qui utilise la transcription locale Whisper, les LLM Ollama locaux (y compris la vision) et PyAutoGUI pour contrôler votre Mac, déplacer/cliquer le curseur et exécuter des commandes sans envoyer vos données vers le cloud.
https://github.com/dikshantrajput/LocalClicky?ref=producthunt&utm_source=aipure
LocalClicky

Informations sur le produit

Mis à jour:Jun 8, 2026

Qu'est-ce que LocalClicky

LocalClicky est une application open-source pour macOS qui vous permet de contrôler votre ordinateur avec votre voix tout en gardant votre voix, vos captures d'écran et vos commandes entièrement sur l'appareil. Il est conçu comme une alternative axée sur la confidentialité aux assistants vocaux cloud : pas de clés API, pas d'abonnements et pas de traitement cloud externe pour la transcription ou le raisonnement. Vous pouvez l'utiliser pour ouvrir et quitter des applications, ajuster les paramètres système, contrôler Spotify, gérer des fichiers, exécuter des commandes shell, créer des rappels et même interagir avec les éléments de l'interface utilisateur à l'écran via des clics basés sur la vision – le tout à partir d'une présence légère dans la barre de menus qui reste discrète.

Caractéristiques principales de LocalClicky

LocalClicky est un assistant vocal hors ligne pour la barre de menus de macOS qui vous permet de contrôler votre Mac avec des commandes vocales tout en conservant la voix, les captures d'écran et le contexte des commandes sur l'appareil. Il utilise whisper.cpp pour la transcription locale, Ollama (par exemple, qwen3 pour l'appel d'outils et gemma4 pour la vision) pour le raisonnement et la compréhension de l'écran, et l'automatisation macOS/Python (AppleScript, shell, PyAutoGUI) pour exécuter des actions telles que l'ouverture d'applications, la gestion de fichiers, le contrôle de Spotify, la création de rappels et le clic sur des éléments d'interface utilisateur en fonction de ce qui est affiché à l'écran. Il prend en charge les flux de travail multi-étapes basés sur des sessions avec détection d'activité vocale, une "vision" d'écran facultative à la demande et une mémoire conversationnelle à court terme.
Traitement entièrement local (priorité à la confidentialité): La transcription (whisper.cpp), le raisonnement/la vision (modèles Ollama) et l'exécution se déroulent sur votre machine – pas d'API cloud, pas de clés API et pas d'abonnements pour les fonctionnalités de base.
Compagnon de la barre de menus avec mode session: Fonctionne discrètement comme une application de barre de menus (pas d'icône dans le Dock) et prend en charge une phrase de réveil ("Ordinateur") pour démarrer une session, puis accepte les commandes consécutives jusqu'à ce que vous la fermiez ou qu'elle expire.
Enregistrement par détection d'activité vocale (VAD): Arrête automatiquement l'enregistrement lorsque vous cessez de parler (avec webrtcvad), évitant les enregistrements de durée fixe et accélérant les délais de commande.
Vision d'écran à la demande + clic sur l'interface utilisateur: Si nécessaire, il capture une capture d'écran, utilise un modèle de vision pour localiser les éléments de l'interface utilisateur et déplace/clique le curseur à l'aide de cadres de sélection pour des actions telles que "cliquer sur la cloche de notification".
Automatisation Mac basée sur des outils: Peut exécuter des commandes shell, interroger l'état du système, automatiser des applications via AppleScript (par exemple, Spotify/Chrome), gérer des fichiers et créer des rappels à partir du langage naturel.
Appel d'outils multi-tours avec vérification: Effectue des flux de travail multi-étapes (jusqu'à plusieurs tours d'outils), vérifie les résultats et peut confirmer ou réessayer des actions pour accomplir les tâches de manière plus fiable.

Cas d'utilisation de LocalClicky

Productivité mains libres pour les travailleurs du savoir: Ouvrez/quittez des applications, gérez des onglets, ajustez les paramètres système, créez des rappels et exécutez des flux de travail rapides par la voix tout en restant concentré sur la tâche actuelle.
Accessibilité et interaction réduite avec la souris: Aide les utilisateurs qui bénéficient du contrôle vocal en permettant le mouvement/clic du curseur et les actions courantes du système d'exploitation/des applications sans navigation manuelle constante.
Automatisation pour les développeurs et l'informatique sur un poste de travail: Déclenchez des commandes shell, interrogez les informations système, gérez les fichiers et orchestrez la configuration/les diagnostics de routine par la voix, le tout localement pour les environnements sensibles.
Guidage logiciel créatif et navigation dans l'interface utilisateur: Utilisez le pointage/clic sensible à l'écran pour naviguer dans des interfaces utilisateur complexes (par exemple, outils de conception/vidéo) et exécuter plus rapidement des actions d'interface répétitives.
Flux de travail sensibles à la confidentialité (réglementés ou confidentiels): Convient aux scénarios où les données d'écran/audio ne doivent pas quitter l'appareil, car la transcription et la vision peuvent s'exécuter localement et aucune clé cloud n'est requise.

Avantages

Respectueux de la vie privée : la voix, les captures d'écran et les commandes sont conçues pour rester sur l'appareil (pas d'API cloud pour le pipeline principal).
Contrôle Mac étendu : combine la transcription vocale, l'appel d'outils LLM locaux et l'automatisation (shell/AppleScript/PyAutoGUI) pour des tâches pratiques.
Interaction basée sur la session : prend en charge les commandes en chaîne sans répéter le mot de réveil, améliorant l'utilisabilité pour le travail multi-étapes.

Inconvénients

La détection du mot de réveil nécessite Internet (utilise Google Speech Recognition), elle n'est donc pas entièrement hors ligne de bout en bout par défaut.
Les autorisations macOS sont requises (Microphone, Enregistrement d'écran, Accessibilité), ce qui peut être un obstacle à la configuration dans les environnements gérés.
Le clic basé sur la vision peut être imprécis selon le modèle/l'interface utilisateur, et les tâches complexes peuvent atteindre les limites des tours d'outils.

Comment utiliser LocalClicky

1) Confirmer les exigences: Utilisez macOS 12+, Python 3.11+, Homebrew et suffisamment de RAM libre (~8 Go+). Vous avez également besoin d'Ollama fonctionnant localement. Remarque : la détection du mot de réveil par défaut utilise la reconnaissance vocale de Google, donc une connexion Internet est requise pour la fonction de mot de réveil.
2) Installer Whisper.cpp (transcription locale): Exécutez : `brew install whisper-cpp`
3) Télécharger un fichier de modèle Whisper: Exécutez : `mkdir -p /opt/homebrew/share/whisper-cpp/models` `curl -L -o /opt/homebrew/share/whisper-cpp/models/ggml-base.en.bin "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-base.en.bin"`
4) Installer Ollama (LLM local + vision): Exécutez : `brew install ollama`
5) Démarrer le serveur Ollama: Exécutez : `ollama serve` (laissez-le fonctionner).
6) Télécharger les modèles LocalClicky par défaut: Exécutez : `ollama pull qwen3:8b` (modèle d'appel de commande/outil) `ollama pull gemma4:e4b` (modèle de vision utilisé pour la compréhension de l'écran)
7) Configurer l'environnement Python: Depuis le dépôt, allez dans le dossier de l'application et créez un venv : `cd PyClicky` `python3 -m venv venv` `source venv/bin/activate` `pip install -r requirements.txt`
8) (Facultatif) Installer la détection de silence pour un meilleur comportement d'arrêt d'enregistrement: Installez VAD pour que l'enregistrement s'arrête automatiquement lorsque vous arrêtez de parler : `pip install webrtcvad-wheels` Sans cela, l'enregistrement revient à une limite stricte de 30 secondes.
9) Exécuter LocalClicky: Depuis `PyClicky/` avec le venv actif : `source venv/bin/activate` Si nécessaire, démarrez Ollama en arrière-plan : `ollama serve &` Ensuite, exécutez : `python main.py` LocalClicky apparaît dans la barre de menus de macOS (pas d'icône de Dock).
10) Accorder les autorisations macOS (une seule fois): Accordez les autorisations au binaire Python du venv (`/chemin/vers/PyClicky/venv/bin/python3`) ou au Terminal (afin que Python les hérite) : - Microphone : demandé lors de la première exécution - Enregistrement d'écran : Réglages Système → Confidentialité et sécurité → Enregistrement d'écran - Accessibilité : Réglages Système → Confidentialité et sécurité → Accessibilité Ces autorisations sont requises pour l'entrée vocale, les captures d'écran pour la vision et le contrôle du curseur/clic.
11) Démarrer une session vocale (mot de réveil): Dites « Ordinateur » pour démarrer une session. LocalClicky commence l'enregistrement, puis s'arrête automatiquement lorsque vous arrêtez de parler (si VAD est installé), transcrit localement et répond.
12) Continuer à émettre des commandes sans répéter le mot de réveil: Après avoir répondu, LocalClicky reste dans une session active et écoute votre prochaine commande immédiatement (vous n'avez pas besoin de dire « Ordinateur » à nouveau).
13) Utiliser des commandes sensibles à l'écran (vision + contrôle du curseur): Demandez-lui d'interagir avec les éléments de l'interface utilisateur, par exemple « Cliquez sur la cloche de notification ». LocalClicky prendra une capture d'écran (via `screencapture`), l'enverra au modèle de vision local, recevra une boîte englobante et cliquera sur le centre à l'aide de PyAutoGUI.
14) Essayer des exemples de commandes courants: Exemples du projet : - « Ouvrir Spotify et jouer du hip hop » - « Régler le volume à 50 pour cent » - « Ouvrir un nouvel onglet dans Chrome » - « Créer un dossier appelé Projets sur mon Bureau » - « Qu'y a-t-il sur mon écran ? » - « Créer un rappel pour appeler John demain à 9h »
15) Terminer la session: Dites « au revoir », « salut », « arrête d'écouter », « va dormir » ou « c'est tout ». La session expire également automatiquement après environ 25 secondes de silence (par défaut).
16) (Facultatif) Personnaliser les modèles: Modifiez `PyClicky/ollama_client.py` : - `COMMAND_MODEL = "qwen3:8b"` - `VISION_MODEL = "gemma4:e4b"` Ensuite, téléchargez tout nouveau modèle que vous choisissez via `ollama pull ...`.
17) (Facultatif) Personnaliser le mot de réveil et les délais d'attente: Modifiez : - `PyClicky/wake_word.py` → `WAKE_PHRASES = [...]` - `PyClicky/companion.py` → `SESSION_IDLE_TIMEOUT = 25.0`
18) Dépanner rapidement si quelque chose échoue: Corrections courantes : - Le mot de réveil ne se déclenche jamais : le mot de réveil utilise la reconnaissance vocale de Google ; assurez-vous d'avoir une connexion Internet et vérifiez les journaux pour `heard:`. - La capture d'écran échoue : accordez l'autorisation d'enregistrement d'écran ; testez `screencapture -x -t jpg /tmp/test.jpg`. - Le curseur ne bouge pas : accordez l'autorisation d'accessibilité. - L'enregistrement ne s'arrête jamais : installez `webrtcvad-wheels`. - Erreurs Ollama : confirmez que les modèles existent avec `ollama list`, redémarrez `ollama serve`.

FAQ de LocalClicky

LocalClicky est une application de barre de menus macOS qui vous permet de contrôler votre Mac avec votre voix tout en gardant tout hors ligne. Elle utilise la transcription locale (Whisper.cpp), le raisonnement/vision IA local (modèles Ollama comme qwen3 et gemma4), la synthèse vocale intégrée à macOS (`say`), et PyAutoGUI pour le contrôle du curseur/clic.

Derniers outils d'IA similaires à LocalClicky

Advanced Voice
Advanced Voice
La Voix Avancée est la fonctionnalité d'interaction vocale de pointe de ChatGPT qui permet des conversations vocales naturelles en temps réel avec des instructions personnalisées, plusieurs options vocales et des accents améliorés pour une communication fluide entre l'humain et l'IA.
Vagent
Vagent
Vagent est une interface vocale légère qui permet aux utilisateurs d'interagir avec des agents IA personnalisés par le biais de commandes vocales, offrant une manière naturelle et intuitive de contrôler les automatisations avec le support de plus de 60 langues.
Vapify
Vapify
Vapify est une plateforme en marque blanche qui permet aux agences d'offrir les solutions d'IA vocale de Vapi.ai sous leur propre marque tout en maintenant le contrôle sur les relations avec les clients et en maximisant les revenus.
Wedding Speech Genie
Wedding Speech Genie
Wedding Speech Genie est une plateforme alimentée par l'IA qui crée des discours de mariage personnalisés en quelques minutes en générant 3 versions personnalisées basées sur vos entrées, aidant les orateurs à livrer des toasts mémorables pour tout rôle de mariage.