LocalClicky envoie-t-il ma voix, mes captures d'écran ou mes commandes vers le cloud ?

Non, son pipeline principal est conçu pour que votre voix, vos captures d'écran et vos commandes restent sur votre machine (pas d'API cloud, pas de clés API, pas d'abonnements). Cependant, la détection du mot d'activation par défaut utilise Google Speech Recognition et nécessite donc une connexion internet.

Que peut faire LocalClicky sur mon Mac ?

Il peut ouvrir/quitter des applications, ajuster le volume du système, contrôler Spotify (lire/rechercher/passer/volume), gérer des fichiers et des dossiers, exécuter des commandes shell, injecter du JavaScript dans Chrome, créer des rappels avec des dates en langage naturel, et déplacer/cliquer la souris en fonction de ce qu'il voit sur votre écran.

Comment démarrer et terminer une session vocale ?

Dites « Computer » pour démarrer une session. Après sa réponse, il reste actif afin que vous puissiez émettre des commandes de suivi sans répéter le mot d'activation. Dites « bye », « goodbye », « stop listening », « go to sleep » ou « that's all » pour terminer ; il expire également automatiquement après 25 secondes de silence.

Comment LocalClicky clique-t-il sur les éléments à l'écran ?

Lorsqu'une commande nécessite une interaction avec l'écran, elle prend une capture d'écran via `screencapture`, la redimensionne (largeur maximale par défaut 1280px), l'envoie à un modèle de vision local (gemma4:e4b par défaut via Ollama), reçoit une boîte englobante comme [CLICK:x1,y1,x2,y2], puis calcule le centre et clique en utilisant PyAutoGUI.

Quels sont les prérequis pour exécuter LocalClicky ?

Vous avez besoin de macOS 12+, Python 3.11+, Homebrew, Ollama exécuté localement, et Whisper.cpp installé (plus un fichier de modèle Whisper). Le projet note ~8 Go de RAM libre pour l'exécution des modèles et une connexion internet pour la détection du mot d'activation.

Quelles autorisations macOS LocalClicky requiert-il ?

Il nécessite l'autorisation du microphone (enregistrement vocal), l'autorisation d'enregistrement d'écran (captures d'écran pour la vision) et l'autorisation d'accessibilité (mouvement/clics du curseur). Celles-ci doivent être accordées au binaire `python3` dans l'environnement virtuel du projet (ou à Terminal si Python n'est pas sélectionnable).

Puis-je changer les modèles utilisés par LocalClicky ?

Oui. Vous pouvez modifier `ollama_client.py` pour changer le modèle de commande (qwen3:8b par défaut) et le modèle de vision (gemma4:e4b par défaut). Le modèle de commande doit prendre en charge l'appel d'outils fiable, et le modèle de vision doit être multimodal.

LocalClicky

WebsiteFreeAI Voice Assistants

LocalClicky est un assistant vocal macOS entièrement hors ligne qui utilise la transcription locale Whisper, les LLM Ollama locaux (y compris la vision) et PyAutoGUI pour contrôler votre Mac, déplacer/cliquer le curseur et exécuter des commandes sans envoyer vos données vers le cloud.

Visiter le site web

Promouvoir cet outil

https://github.com/dikshantrajput/LocalClicky?ref=producthunt&utm_source=aipure

Aperçu
Vidéo
Alternatives

Informations sur le produit

Mis à jour:Jun 8, 2026

Qu'est-ce que LocalClicky

LocalClicky est une application open-source pour macOS qui vous permet de contrôler votre ordinateur avec votre voix tout en gardant votre voix, vos captures d'écran et vos commandes entièrement sur l'appareil. Il est conçu comme une alternative axée sur la confidentialité aux assistants vocaux cloud : pas de clés API, pas d'abonnements et pas de traitement cloud externe pour la transcription ou le raisonnement. Vous pouvez l'utiliser pour ouvrir et quitter des applications, ajuster les paramètres système, contrôler Spotify, gérer des fichiers, exécuter des commandes shell, créer des rappels et même interagir avec les éléments de l'interface utilisateur à l'écran via des clics basés sur la vision – le tout à partir d'une présence légère dans la barre de menus qui reste discrète.

Caractéristiques principales de LocalClicky

LocalClicky est un assistant vocal hors ligne pour la barre de menus de macOS qui vous permet de contrôler votre Mac avec des commandes vocales tout en conservant la voix, les captures d'écran et le contexte des commandes sur l'appareil. Il utilise whisper.cpp pour la transcription locale, Ollama (par exemple, qwen3 pour l'appel d'outils et gemma4 pour la vision) pour le raisonnement et la compréhension de l'écran, et l'automatisation macOS/Python (AppleScript, shell, PyAutoGUI) pour exécuter des actions telles que l'ouverture d'applications, la gestion de fichiers, le contrôle de Spotify, la création de rappels et le clic sur des éléments d'interface utilisateur en fonction de ce qui est affiché à l'écran. Il prend en charge les flux de travail multi-étapes basés sur des sessions avec détection d'activité vocale, une "vision" d'écran facultative à la demande et une mémoire conversationnelle à court terme.

Traitement entièrement local (priorité à la confidentialité): La transcription (whisper.cpp), le raisonnement/la vision (modèles Ollama) et l'exécution se déroulent sur votre machine – pas d'API cloud, pas de clés API et pas d'abonnements pour les fonctionnalités de base.

Compagnon de la barre de menus avec mode session: Fonctionne discrètement comme une application de barre de menus (pas d'icône dans le Dock) et prend en charge une phrase de réveil ("Ordinateur") pour démarrer une session, puis accepte les commandes consécutives jusqu'à ce que vous la fermiez ou qu'elle expire.

Enregistrement par détection d'activité vocale (VAD): Arrête automatiquement l'enregistrement lorsque vous cessez de parler (avec webrtcvad), évitant les enregistrements de durée fixe et accélérant les délais de commande.

Vision d'écran à la demande + clic sur l'interface utilisateur: Si nécessaire, il capture une capture d'écran, utilise un modèle de vision pour localiser les éléments de l'interface utilisateur et déplace/clique le curseur à l'aide de cadres de sélection pour des actions telles que "cliquer sur la cloche de notification".

Automatisation Mac basée sur des outils: Peut exécuter des commandes shell, interroger l'état du système, automatiser des applications via AppleScript (par exemple, Spotify/Chrome), gérer des fichiers et créer des rappels à partir du langage naturel.

Appel d'outils multi-tours avec vérification: Effectue des flux de travail multi-étapes (jusqu'à plusieurs tours d'outils), vérifie les résultats et peut confirmer ou réessayer des actions pour accomplir les tâches de manière plus fiable.

Cas d'utilisation de LocalClicky

Productivité mains libres pour les travailleurs du savoir: Ouvrez/quittez des applications, gérez des onglets, ajustez les paramètres système, créez des rappels et exécutez des flux de travail rapides par la voix tout en restant concentré sur la tâche actuelle.

Accessibilité et interaction réduite avec la souris: Aide les utilisateurs qui bénéficient du contrôle vocal en permettant le mouvement/clic du curseur et les actions courantes du système d'exploitation/des applications sans navigation manuelle constante.

Automatisation pour les développeurs et l'informatique sur un poste de travail: Déclenchez des commandes shell, interrogez les informations système, gérez les fichiers et orchestrez la configuration/les diagnostics de routine par la voix, le tout localement pour les environnements sensibles.

Guidage logiciel créatif et navigation dans l'interface utilisateur: Utilisez le pointage/clic sensible à l'écran pour naviguer dans des interfaces utilisateur complexes (par exemple, outils de conception/vidéo) et exécuter plus rapidement des actions d'interface répétitives.

Flux de travail sensibles à la confidentialité (réglementés ou confidentiels): Convient aux scénarios où les données d'écran/audio ne doivent pas quitter l'appareil, car la transcription et la vision peuvent s'exécuter localement et aucune clé cloud n'est requise.

Avantages

Respectueux de la vie privée : la voix, les captures d'écran et les commandes sont conçues pour rester sur l'appareil (pas d'API cloud pour le pipeline principal).

Contrôle Mac étendu : combine la transcription vocale, l'appel d'outils LLM locaux et l'automatisation (shell/AppleScript/PyAutoGUI) pour des tâches pratiques.

Interaction basée sur la session : prend en charge les commandes en chaîne sans répéter le mot de réveil, améliorant l'utilisabilité pour le travail multi-étapes.

Inconvénients

La détection du mot de réveil nécessite Internet (utilise Google Speech Recognition), elle n'est donc pas entièrement hors ligne de bout en bout par défaut.

Les autorisations macOS sont requises (Microphone, Enregistrement d'écran, Accessibilité), ce qui peut être un obstacle à la configuration dans les environnements gérés.

Le clic basé sur la vision peut être imprécis selon le modèle/l'interface utilisateur, et les tâches complexes peuvent atteindre les limites des tours d'outils.

Comment utiliser LocalClicky

1) Confirmer les exigences: Utilisez macOS 12+, Python 3.11+, Homebrew et suffisamment de RAM libre (~8 Go+). Vous avez également besoin d'Ollama fonctionnant localement. Remarque : la détection du mot de réveil par défaut utilise la reconnaissance vocale de Google, donc une connexion Internet est requise pour la fonction de mot de réveil.

2) Installer Whisper.cpp (transcription locale): Exécutez : `brew install whisper-cpp`

3) Télécharger un fichier de modèle Whisper: Exécutez : `mkdir -p /opt/homebrew/share/whisper-cpp/models` `curl -L -o /opt/homebrew/share/whisper-cpp/models/ggml-base.en.bin "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-base.en.bin"`

4) Installer Ollama (LLM local + vision): Exécutez : `brew install ollama`

5) Démarrer le serveur Ollama: Exécutez : `ollama serve` (laissez-le fonctionner).

6) Télécharger les modèles LocalClicky par défaut: Exécutez : `ollama pull qwen3:8b` (modèle d'appel de commande/outil) `ollama pull gemma4:e4b` (modèle de vision utilisé pour la compréhension de l'écran)

7) Configurer l'environnement Python: Depuis le dépôt, allez dans le dossier de l'application et créez un venv : `cd PyClicky` `python3 -m venv venv` `source venv/bin/activate` `pip install -r requirements.txt`

8) (Facultatif) Installer la détection de silence pour un meilleur comportement d'arrêt d'enregistrement: Installez VAD pour que l'enregistrement s'arrête automatiquement lorsque vous arrêtez de parler : `pip install webrtcvad-wheels` Sans cela, l'enregistrement revient à une limite stricte de 30 secondes.

9) Exécuter LocalClicky: Depuis `PyClicky/` avec le venv actif : `source venv/bin/activate` Si nécessaire, démarrez Ollama en arrière-plan : `ollama serve &` Ensuite, exécutez : `python main.py` LocalClicky apparaît dans la barre de menus de macOS (pas d'icône de Dock).

10) Accorder les autorisations macOS (une seule fois): Accordez les autorisations au binaire Python du venv (`/chemin/vers/PyClicky/venv/bin/python3`) ou au Terminal (afin que Python les hérite) : - Microphone : demandé lors de la première exécution - Enregistrement d'écran : Réglages Système → Confidentialité et sécurité → Enregistrement d'écran - Accessibilité : Réglages Système → Confidentialité et sécurité → Accessibilité Ces autorisations sont requises pour l'entrée vocale, les captures d'écran pour la vision et le contrôle du curseur/clic.

11) Démarrer une session vocale (mot de réveil): Dites « Ordinateur » pour démarrer une session. LocalClicky commence l'enregistrement, puis s'arrête automatiquement lorsque vous arrêtez de parler (si VAD est installé), transcrit localement et répond.

12) Continuer à émettre des commandes sans répéter le mot de réveil: Après avoir répondu, LocalClicky reste dans une session active et écoute votre prochaine commande immédiatement (vous n'avez pas besoin de dire « Ordinateur » à nouveau).

13) Utiliser des commandes sensibles à l'écran (vision + contrôle du curseur): Demandez-lui d'interagir avec les éléments de l'interface utilisateur, par exemple « Cliquez sur la cloche de notification ». LocalClicky prendra une capture d'écran (via `screencapture`), l'enverra au modèle de vision local, recevra une boîte englobante et cliquera sur le centre à l'aide de PyAutoGUI.

14) Essayer des exemples de commandes courants: Exemples du projet : - « Ouvrir Spotify et jouer du hip hop » - « Régler le volume à 50 pour cent » - « Ouvrir un nouvel onglet dans Chrome » - « Créer un dossier appelé Projets sur mon Bureau » - « Qu'y a-t-il sur mon écran ? » - « Créer un rappel pour appeler John demain à 9h »

15) Terminer la session: Dites « au revoir », « salut », « arrête d'écouter », « va dormir » ou « c'est tout ». La session expire également automatiquement après environ 25 secondes de silence (par défaut).

16) (Facultatif) Personnaliser les modèles: Modifiez `PyClicky/ollama_client.py` : - `COMMAND_MODEL = "qwen3:8b"` - `VISION_MODEL = "gemma4:e4b"` Ensuite, téléchargez tout nouveau modèle que vous choisissez via `ollama pull ...`.

17) (Facultatif) Personnaliser le mot de réveil et les délais d'attente: Modifiez : - `PyClicky/wake_word.py` → `WAKE_PHRASES = [...]` - `PyClicky/companion.py` → `SESSION_IDLE_TIMEOUT = 25.0`

18) Dépanner rapidement si quelque chose échoue: Corrections courantes : - Le mot de réveil ne se déclenche jamais : le mot de réveil utilise la reconnaissance vocale de Google ; assurez-vous d'avoir une connexion Internet et vérifiez les journaux pour `heard:`. - La capture d'écran échoue : accordez l'autorisation d'enregistrement d'écran ; testez `screencapture -x -t jpg /tmp/test.jpg`. - Le curseur ne bouge pas : accordez l'autorisation d'accessibilité. - L'enregistrement ne s'arrête jamais : installez `webrtcvad-wheels`. - Erreurs Ollama : confirmez que les modèles existent avec `ollama list`, redémarrez `ollama serve`.

FAQ de LocalClicky

LocalClicky est une application de barre de menus macOS qui vous permet de contrôler votre Mac avec votre voix tout en gardant tout hors ligne. Elle utilise la transcription locale (Whisper.cpp), le raisonnement/vision IA local (modèles Ollama comme qwen3 et gemma4), la synthèse vocale intégrée à macOS (`say`), et PyAutoGUI pour le contrôle du curseur/clic.

Vidéo de LocalClicky

Articles populaires

Atoms : Une plateforme d'IA multi-agents qui transforme les idées en produits prêts à être lancés

May 22, 2026

Nano Banana SBTI : Qu'est-ce que c'est, comment ça marche et comment l'utiliser en 2026

Apr 15, 2026

Atoms : L'outil de création de produits IA qui redéfinit la création numérique en 2026

Apr 10, 2026

Kilo Claw : Comment déployer et utiliser un véritable agent d'IA "Faites-le pour vous" (Mise à jour 2026)

Apr 3, 2026

Derniers outils d'IA similaires à LocalClicky

Advanced Voice

Free TrialAI Speech Recognition AI Voice Assistants

La Voix Avancée est la fonctionnalité d'interaction vocale de pointe de ChatGPT qui permet des conversations vocales naturelles en temps réel avec des instructions personnalisées, plusieurs options vocales et des accents améliorés pour une communication fluide entre l'humain et l'IA.

Vagent

FreeAI Voice Assistants Text to Speech

Vagent est une interface vocale légère qui permet aux utilisateurs d'interagir avec des agents IA personnalisés par le biais de commandes vocales, offrant une manière naturelle et intuitive de contrôler les automatisations avec le support de plus de 60 langues.

Vapify

Contact for PricingAI Voice Assistants No-Code & Low-Code AI Customer Service Assistant

Vapify est une plateforme en marque blanche qui permet aux agences d'offrir les solutions d'IA vocale de Vapi.ai sous leur propre marque tout en maintenant le contrôle sur les relations avec les clients et en maximisant les revenus.

Wedding Speech Genie

PaidAI Script Writing AI Speech Recognition AI Voice Assistants

Wedding Speech Genie est une plateforme alimentée par l'IA qui crée des discours de mariage personnalisés en quelques minutes en générant 3 versions personnalisées basées sur vos entrées, aidant les orateurs à livrer des toasts mémorables pour tout rôle de mariage.

Outils d'IA populaires comme LocalClicky

Microsoft Dragon Copilot

Contact for PricingAI Voice Assistants Healthcare

Microsoft Dragon Copilot est un assistant de flux de travail clinique alimenté par l'IA qui combine la dictée vocale en langage naturel, les capacités d'écoute ambiante et l'IA générative pour rationaliser la documentation, faire surface l'information et automatiser les tâches dans les milieux de soins de santé.

Edge Copilot Mode

FreeAI Browsers Builder AI Voice Assistants

Le mode Copilot d'Edge est la fonctionnalité de navigateur expérimentale optimisée par l'IA de Microsoft qui combine la recherche, la conversation et la navigation Web en une seule interface, permettant aux utilisateurs de naviguer plus intelligemment avec l'assistance de l'IA tout en préservant la confidentialité et le contrôle.

GibberLink

FreeAI Voice Assistants

GibberLink est un projet open source qui permet à deux agents d'IA de communiquer efficacement en passant du langage humain à un protocole de niveau sonore après s'être reconnus, grâce à la technologie ggwave.

Llama MacOS Desktop Controller

FreeAI Voice Assistants

Llama MacOS Desktop Controller est une application basée sur React et Flask qui permet aux utilisateurs de contrôler les actions du système macOS grâce à des commandes en langage naturel en utilisant du code Python généré par LLM.

Classement

Soumettre & PromouvoirNew

LocalClicky

Informations sur le produit

Qu'est-ce que LocalClicky

Caractéristiques principales de LocalClicky

Cas d'utilisation de LocalClicky

Avantages

Inconvénients

Comment utiliser LocalClicky

FAQ de LocalClicky

1. Qu'est-ce que LocalClicky ?

2. LocalClicky envoie-t-il ma voix, mes captures d'écran ou mes commandes vers le cloud ?

3. Que peut faire LocalClicky sur mon Mac ?

4. Comment démarrer et terminer une session vocale ?

5. Comment LocalClicky clique-t-il sur les éléments à l'écran ?

6. Quels sont les prérequis pour exécuter LocalClicky ?

7. Quelles autorisations macOS LocalClicky requiert-il ?

8. Puis-je changer les modèles utilisés par LocalClicky ?

Vidéo de LocalClicky

Articles populaires

Derniers outils d'IA similaires à LocalClicky

Outils d'IA populaires comme LocalClicky