
LocalClicky
LocalClicky ist ein vollständig offline arbeitender macOS-Sprachassistent, der lokale Whisper-Transkription, lokale Ollama LLMs (einschließlich Vision) und PyAutoGUI verwendet, um Ihren Mac zu steuern, den Cursor zu bewegen/klicken und Befehle auszuführen, ohne Ihre Daten in die Cloud zu senden.
https://github.com/dikshantrajput/LocalClicky?ref=producthunt&utm_source=aipure

Produktinformationen
Aktualisiert:Jun 8, 2026
Was ist LocalClicky
LocalClicky ist eine Open-Source-Menüleisten-App für macOS, mit der Sie Ihren Computer per Sprache steuern können, während Ihre Stimme, Screenshots und Befehle vollständig auf dem Gerät bleiben. Es wurde als datenschutzfreundliche Alternative zu Cloud-Sprachassistenten entwickelt: keine API-Schlüssel, keine Abonnements und keine externe Cloud-Verarbeitung für Transkription oder Argumentation. Sie können damit Apps öffnen und beenden, Systemeinstellungen anpassen, Spotify steuern, Dateien verwalten, Shell-Befehle ausführen, Erinnerungen erstellen und sogar mit UI-Elementen auf dem Bildschirm über vision-basiertes Klicken interagieren – alles von einer schlanken Menüleistenpräsenz aus, die nicht im Weg ist.
Hauptfunktionen von LocalClicky
LocalClicky ist ein "Offline-First" macOS Menüleisten-Sprachassistent, mit dem Sie Ihren Mac mit Sprachbefehlen steuern können, während Sprache, Screenshots und der Befehlskontext auf dem Gerät bleiben. Es verwendet whisper.cpp für die lokale Transkription, Ollama (z.B. qwen3 für Tool-Calling und gemma4 für Vision) für die Argumentation und das Bildschirmverständnis sowie macOS/Python-Automatisierung (AppleScript, Shell, PyAutoGUI), um Aktionen wie das Öffnen von Apps, das Verwalten von Dateien, das Steuern von Spotify, das Erstellen von Erinnerungen und das Klicken auf UI-Elemente basierend auf dem, was auf Ihrem Bildschirm zu sehen ist, auszuführen. Es unterstützt sitzungsbasierte, mehrstufige Workflows mit Spracherkennungsaktivierung, optionaler "Vision" auf Abruf und kurzfristigem Konversationsgedächtnis.
Vollständig lokale Verarbeitung (Datenschutz zuerst): Transkription (whisper.cpp), Argumentation/Vision (Ollama-Modelle) und Ausführung erfolgen auf Ihrem Computer – keine Cloud-APIs, keine API-Schlüssel und keine Abonnements für die Kernfunktionalität.
Menüleisten-Begleiter mit Sitzungsmodus: Läuft unauffällig als Menüleisten-App (kein Dock-Symbol) und unterstützt ein Weckwort ("Computer"), um eine Sitzung zu starten, und akzeptiert dann aufeinanderfolgende Befehle, bis Sie es schließen oder es abläuft.
Sprachaktivitätserkennung (VAD) Aufnahme: Stoppt die Aufnahme automatisch, wenn Sie aufhören zu sprechen (mit webrtcvad), wodurch Aufnahmen mit fester Dauer vermieden und die Befehlsbearbeitung beschleunigt werden.
On-Demand-Bildschirmvision + UI-Klicken: Bei Bedarf wird ein Screenshot erstellt, ein Vision-Modell verwendet, um UI-Elemente zu lokalisieren, und der Cursor mithilfe von Begrenzungsrahmen für Aktionen wie "klicke auf die Benachrichtigungsglocke" bewegt/geklickt.
Werkzeugbasierte Mac-Automatisierung: Kann Shell-Befehle ausführen, den Systemstatus abfragen, Apps über AppleScript automatisieren (z.B. Spotify/Chrome), Dateien verwalten und Erinnerungen aus natürlicher Sprache erstellen.
Mehrstufiges Tool-Calling mit Verifizierung: Führt mehrstufige Workflows aus (bis zu mehrere Tool-Runden), überprüft Ergebnisse und kann Aktionen bestätigen oder wiederholen, um Aufgaben zuverlässiger abzuschließen.
Anwendungsfälle von LocalClicky
Freihändige Produktivität für Wissensarbeiter: Öffnen/Beenden von Apps, Verwalten von Tabs, Anpassen von Systemeinstellungen, Erstellen von Erinnerungen und Ausführen schneller Workflows per Sprache, während Sie sich auf die aktuelle Aufgabe konzentrieren.
Barrierefreiheit und reduzierte Mausinteraktion: Hilft Benutzern, die von sprachgesteuerter Steuerung profitieren, indem es Cursorbewegungen/Klicks und gängige OS/App-Aktionen ohne ständige manuelle Navigation ermöglicht.
Entwickler- und IT-Automatisierung auf einer Workstation: Auslösen von Shell-Befehlen, Abfragen von Systeminformationen, Verwalten von Dateien und Orchestrieren von Routine-Einrichtungen/Diagnosen per Sprache, alles lokal für sensible Umgebungen.
Anleitung für Kreativsoftware und UI-Navigation: Verwenden Sie bildschirmbewusstes Zeigen/Klicken, um komplexe UIs (z.B. Design-/Videotools) zu navigieren und wiederholende Schnittstellenaktionen schneller auszuführen.
Datenschutzsensible Workflows (reguliert oder vertraulich): Geeignet für Szenarien, in denen Bildschirm-/Audiodaten das Gerät nicht verlassen dürfen, da Transkription und Vision lokal ausgeführt werden können und keine Cloud-Schlüssel erforderlich sind.
Vorteile
Datenschutzorientiert: Sprache, Screenshots und Befehle sind so konzipiert, dass sie auf dem Gerät bleiben (keine Cloud-APIs für die Kernpipeline).
Umfassende Mac-Steuerung: kombiniert Sprachtranskription, lokales LLM-Tool-Calling und Automatisierung (Shell/AppleScript/PyAutoGUI) für praktische Aufgaben.
Sitzungsbasierte Interaktion: unterstützt verkettete Befehle, ohne das Weckwort zu wiederholen, was die Benutzerfreundlichkeit für mehrstufige Arbeiten verbessert.
Nachteile
Die Weckworterkennung erfordert Internet (verwendet Google Speech Recognition), ist also standardmäßig nicht vollständig offline.
macOS-Berechtigungen sind erforderlich (Mikrofon, Bildschirmaufnahme, Barrierefreiheit), was in verwalteten Umgebungen eine Einrichtungshürde darstellen kann.
Das visionsbasierte Klicken kann je nach Modell/UI ungenau sein, und komplexe Aufgaben können an Tool-Runden-Grenzen stoßen.
Wie verwendet man LocalClicky
1) Anforderungen bestätigen: Verwenden Sie macOS 12+, Python 3.11+, Homebrew und ausreichend freien RAM (~8GB+). Sie benötigen auch Ollama, das lokal läuft. Hinweis: Die Standard-Wake-Word-Erkennung verwendet Google Speech Recognition, daher ist eine Internetverbindung für die Wake-Word-Funktion erforderlich.
2) Whisper.cpp installieren (lokale Transkription): Ausführen: `brew install whisper-cpp`
3) Eine Whisper-Modelldatei herunterladen: Ausführen:
`mkdir -p /opt/homebrew/share/whisper-cpp/models`
`curl -L -o /opt/homebrew/share/whisper-cpp/models/ggml-base.en.bin "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-base.en.bin"`
4) Ollama installieren (lokales LLM + Vision): Ausführen: `brew install ollama`
5) Den Ollama-Server starten: Ausführen: `ollama serve` (laufen lassen).
6) Die Standard-LocalClicky-Modelle herunterladen: Ausführen:
`ollama pull qwen3:8b` (Befehls-/Tool-Aufrufmodell)
`ollama pull gemma4:e4b` (Vision-Modell zur Bildschirmverständnis)
7) Die Python-Umgebung einrichten: Wechseln Sie vom Repo in den App-Ordner und erstellen Sie eine venv:
`cd PyClicky`
`python3 -m venv venv`
`source venv/bin/activate`
`pip install -r requirements.txt`
8) (Optional) Stille-Erkennung für besseres Aufnahme-Stopp-Verhalten installieren: Installieren Sie VAD, damit die Aufnahme automatisch stoppt, wenn Sie aufhören zu sprechen:
`pip install webrtcvad-wheels`
Ohne dies fällt die Aufnahme auf eine feste Grenze von 30 Sekunden zurück.
9) LocalClicky ausführen: Von `PyClicky/` mit aktiver venv:
`source venv/bin/activate`
Bei Bedarf Ollama im Hintergrund starten: `ollama serve &`
Dann ausführen: `python main.py`
LocalClicky erscheint in der macOS-Menüleiste (kein Dock-Symbol).
10) macOS-Berechtigungen erteilen (einmalig): Erteilen Sie dem venv Python-Binary (`/path/to/PyClicky/venv/bin/python3`) oder dem Terminal (damit Python sie erbt) Berechtigungen:
- Mikrofon: Wird beim ersten Start abgefragt
- Bildschirmaufnahme: Systemeinstellungen → Datenschutz & Sicherheit → Bildschirmaufnahme
- Bedienungshilfen: Systemeinstellungen → Datenschutz & Sicherheit → Bedienungshilfen
Diese sind für Spracheingabe, Screenshots für Vision und Cursor-/Klicksteuerung erforderlich.
11) Eine Sprachsession starten (Wake Word): Sagen Sie „Computer“, um eine Sitzung zu starten. LocalClicky beginnt mit der Aufnahme und stoppt automatisch, wenn Sie aufhören zu sprechen (wenn VAD installiert ist), transkribiert lokal und antwortet.
12) Befehle weiterhin ohne Wiederholung des Wake Words erteilen: Nachdem es geantwortet hat, bleibt LocalClicky in einer aktiven Sitzung und hört sofort auf Ihren nächsten Befehl (Sie müssen „Computer“ nicht erneut sagen).
13) Bildschirmgesteuerte Befehle verwenden (Vision + Cursorsteuerung): Bitten Sie es, mit UI-Elementen zu interagieren, z.B. „Klicken Sie auf die Benachrichtigungsglocke.“ LocalClicky macht einen Screenshot (über `screencapture`), sendet ihn an das lokale Vision-Modell, erhält ein Begrenzungsfeld und klickt mit PyAutoGUI auf die Mitte.
14) Häufige Beispielbefehle ausprobieren: Beispiele aus dem Projekt:
- „Öffne Spotify und spiele Hip Hop“
- „Stelle die Lautstärke auf 50 Prozent ein“
- „Öffne einen neuen Tab in Chrome“
- „Erstelle einen Ordner namens Projekte auf meinem Desktop“
- „Was ist auf meinem Bildschirm?“
- „Erstelle eine Erinnerung, John morgen um 9 Uhr anzurufen“
15) Die Sitzung beenden: Sagen Sie „Tschüss“, „Auf Wiedersehen“, „Hör auf zuzuhören“, „Geh schlafen“ oder „Das war's“. Die Sitzung läuft auch nach ca. 25 Sekunden Stille (Standard) automatisch ab.
16) (Optional) Modelle anpassen: Bearbeiten Sie `PyClicky/ollama_client.py`:
- `COMMAND_MODEL = "qwen3:8b"`
- `VISION_MODEL = "gemma4:e4b"`
Ziehen Sie dann jedes neue Modell, das Sie auswählen, über `ollama pull ...`.
17) (Optional) Wake Word und Timeouts anpassen: Bearbeiten Sie:
- `PyClicky/wake_word.py` → `WAKE_PHRASES = [...]`
- `PyClicky/companion.py` → `SESSION_IDLE_TIMEOUT = 25.0`
18) Schnelle Fehlerbehebung, wenn etwas fehlschlägt: Häufige Korrekturen:
- Wake Word wird nie ausgelöst: Wake Word verwendet Google Speech Recognition; stellen Sie sicher, dass Internet vorhanden ist und überprüfen Sie die Protokolle auf `heard:`.
- Screenshot schlägt fehl: Bildschirmaufnahme gewähren; testen Sie `screencapture -x -t jpg /tmp/test.jpg`.
- Cursor bewegt sich nicht: Bedienungshilfen gewähren.
- Aufnahme stoppt nie: `webrtcvad-wheels` installieren.
- Ollama-Fehler: Bestätigen Sie, dass Modelle mit `ollama list` existieren, starten Sie `ollama serve` neu.
LocalClicky FAQs
LocalClicky ist eine macOS-Menüleisten-App, mit der Sie Ihren Mac mit Ihrer Stimme steuern können, während alles offline bleibt. Es verwendet lokale Transkription (Whisper.cpp), lokale KI-Argumentation/Vision (Ollama-Modelle wie qwen3 und gemma4), die integrierte macOS-Text-to-Speech-Funktion (`say`) und PyAutoGUI zur Cursor-/Klicksteuerung.
LocalClicky Video
Beliebte Artikel

Atoms: Eine Multi-Agenten-KI-Plattform, die Ideen in startbereite Produkte verwandelt
May 22, 2026

Nano Banana SBTI: Was es ist, wie es funktioniert und wie man es im Jahr 2026 einsetzt
Apr 15, 2026

Atoms Review – Der KI-Produkt-Builder, der die digitale Erstellung im Jahr 2026 neu definiert
Apr 10, 2026

Kilo Claw: Wie man einen echten "Do-It-For-You" KI-Agenten bereitstellt und verwendet (2026 Update)
Apr 3, 2026







