LocalClicky

LocalClicky

LocalClickyは、ローカルのWhisper転写、ローカルのOllama LLM(ビジョンを含む)、およびPyAutoGUIを使用して、データをクラウドに送信することなくMacを制御し、カーソルを移動/クリックし、コマンドを実行する、完全にオフラインのmacOS音声アシスタントです。
https://github.com/dikshantrajput/LocalClicky?ref=producthunt&utm_source=aipure
LocalClicky

製品情報

更新日:2026年06月08日

LocalClickyとは

LocalClickyは、macOS用のオープンソースのメニューバーアプリで、音声、スクリーンショット、コマンドを完全にデバイス上に保持しながら、音声でコンピューターを制御できます。これは、クラウド音声アシスタントに代わるプライバシー重視の設計です。APIキー、サブスクリプション、転写や推論のための外部クラウド処理は不要です。アプリの開閉、システム設定の調整、Spotifyの制御、ファイルの管理、シェルコマンドの実行、リマインダーの作成、さらにはビジョンベースのクリックによる画面上のUI要素との対話まで、すべてを邪魔にならない軽量なメニューバーから実行できます。

LocalClickyの主な機能

LocalClickyは、オフラインファーストのmacOSメニューバー音声アシスタントで、音声、スクリーンショット、コマンドコンテキストをデバイス上に保持しながら、音声コマンドでMacを制御できます。ローカルでの文字起こしにはwhisper.cppを、推論と画面理解にはOllama(例:ツール呼び出しにはqwen3、視覚にはgemma4)を、アプリの起動、ファイルの管理、Spotifyの制御、リマインダーの作成、画面上のUI要素のクリックなどのアクションを実行するためにmacOS/Pythonオートメーション(AppleScript、シェル、PyAutoGUI)を使用します。音声アクティビティ検出、オプションのオンデマンド画面「ビジョン」、短期的な会話メモリを備えたセッションベースの多段階ワークフローをサポートしています。
完全なローカル処理(プライバシーファースト): 文字起こし(whisper.cpp)、推論/ビジョン(Ollamaモデル)、および実行はすべてマシン上で行われます。クラウドAPI、APIキー、コア機能のサブスクリプションは不要です。
セッションモード付きメニューバーコンパニオン: メニューバーアプリとして静かに実行され(Dockアイコンなし)、ウェイクフレーズ(「Computer」)でセッションを開始し、ユーザーが閉じるかタイムアウトするまで連続してコマンドを受け付けます。
音声アクティビティ検出(VAD)録音: 話し終えると自動的に録音を停止し(webrtcvadを使用)、固定時間の録音を回避し、コマンドの応答時間を短縮します。
オンデマンド画面ビジョン + UIクリック: 必要に応じて、スクリーンショットをキャプチャし、ビジョンモデルを使用してUI要素を特定し、「通知ベルをクリック」などのアクションのためにバウンディングボックスを使用してカーソルを移動/クリックします。
ツールベースのMacオートメーション: シェルコマンドの実行、システム状態の照会、AppleScriptによるアプリの自動化(例:Spotify/Chrome)、ファイルの管理、自然言語からのリマインダー作成が可能です。
検証付きマルチラウンドツール呼び出し: 多段階ワークフロー(最大数回のツールラウンド)を実行し、結果を確認し、アクションを確定または再試行してタスクをより確実に完了できます。

LocalClickyのユースケース

知識労働者向けのハンズフリー生産性: 現在のタスクに集中しながら、音声でアプリを開閉したり、タブを管理したり、システム設定を調整したり、リマインダーを作成したり、迅速なワークフローを実行したりできます。
アクセシビリティとマウス操作の削減: 音声駆動制御の恩恵を受けるユーザーが、絶え間ない手動ナビゲーションなしでカーソルの移動/クリックや一般的なOS/アプリのアクションを可能にすることで支援します。
ワークステーションでの開発者およびITオートメーション: シェルコマンドのトリガー、システム情報の照会、ファイルの管理、ルーチン設定/診断のオーケストレーションを音声で行い、機密性の高い環境向けにすべてローカルで実行します。
クリエイティブソフトウェアのガイダンスとUIナビゲーション: 画面認識型のポインティング/クリックを使用して、複雑なUI(例:デザイン/ビデオツール)をナビゲートし、反復的なインターフェースアクションをより迅速に実行します。
プライバシーに配慮したワークフロー(規制または機密): 文字起こしとビジョンはローカルで実行でき、クラウドキーは不要なため、画面/音声データがデバイスから離れてはならないシナリオに適しています。

メリット

プライバシー重視:音声、スクリーンショット、コマンドはデバイス上に保持されるように設計されています(コアパイプラインにクラウドAPIは使用しません)。
広範なMac制御:音声文字起こし、ローカルLLMツール呼び出し、自動化(シェル/AppleScript/PyAutoGUI)を組み合わせて実用的なタスクを実行します。
セッションベースのインタラクション:ウェイクワードを繰り返すことなく、連続したコマンドをサポートし、多段階作業の使いやすさを向上させます。

デメリット

ウェイクワード検出にはインターネットが必要です(Google Speech Recognitionを使用)。そのため、デフォルトでは完全にオフラインのエンドツーエンドではありません。
macOSの権限(マイク、画面録画、アクセシビリティ)が必要であり、管理された環境では設定のハードルとなる場合があります。
ビジョンベースのクリックはモデル/UIによっては不正確になる可能性があり、複雑なタスクではツールラウンドの制限に達する可能性があります。

LocalClickyの使い方

1) 要件の確認: macOS 12以降、Python 3.11以降、Homebrew、および十分な空きRAM(約8GB以上)を使用してください。また、Ollamaがローカルで実行されている必要があります。注:デフォルトのウェイクワード検出はGoogle音声認識を使用するため、ウェイクワード機能にはインターネット接続が必要です。
2) Whisper.cppのインストール(ローカル転写): 実行:`brew install whisper-cpp`
3) Whisperモデルファイルのダウンロード: 実行: `mkdir -p /opt/homebrew/share/whisper-cpp/models` `curl -L -o /opt/homebrew/share/whisper-cpp/models/ggml-base.en.bin "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-base.en.bin"`
4) Ollamaのインストール(ローカルLLM + ビジョン): 実行:`brew install ollama`
5) Ollamaサーバーの起動: 実行:`ollama serve`(実行したままにする)。
6) デフォルトのLocalClickyモデルのプル: 実行: `ollama pull qwen3:8b`(コマンド/ツール呼び出しモデル) `ollama pull gemma4:e4b`(画面理解に使用されるビジョンモデル)
7) Python環境のセットアップ: リポジトリからアプリフォルダに移動し、venvを作成します: `cd PyClicky` `python3 -m venv venv` `source venv/bin/activate` `pip install -r requirements.txt`
8) (オプション)より良い録音停止動作のための無音検出のインストール: VADをインストールすると、話し終えると録音が自動停止します: `pip install webrtcvad-wheels` これがない場合、録音は30秒のハードキャップにフォールバックします。
9) LocalClickyの実行: `PyClicky/`からvenvをアクティブにして実行: `source venv/bin/activate` 必要に応じて、Ollamaをバックグラウンドで起動:`ollama serve &` 次に実行:`python main.py` LocalClickyはmacOSメニューバーに表示されます(Dockアイコンなし)。
10) macOSのアクセス許可の付与(1回限り): venv Pythonバイナリ(`/path/to/PyClicky/venv/bin/python3`)またはターミナル(Pythonがそれらを継承するように)にアクセス許可を付与します: - マイク:初回実行時にプロンプトが表示されます - 画面録画:システム設定 → プライバシーとセキュリティ → 画面録画 - アクセシビリティ:システム設定 → プライバシーとセキュリティ → アクセシビリティ これらは、音声入力、ビジョン用のスクリーンショット、カーソル/クリック制御に必要です。
11) 音声セッションの開始(ウェイクワード): 「Computer」と言ってセッションを開始します。LocalClickyは録音を開始し、話し終えると自動停止し(VADがインストールされている場合)、ローカルで転写し、応答します。
12) ウェイクワードを繰り返さずにコマンドを継続して発行する: 応答後、LocalClickyはアクティブなセッションを維持し、すぐに次のコマンドをリッスンします(「Computer」を再度言う必要はありません)。
13) 画面認識コマンドの使用(ビジョン + カーソル制御): UI要素との対話を要求します。例:「通知ベルをクリックして」。LocalClickyはスクリーンショットを撮り(`screencapture`経由)、ローカルビジョンモデルに送信し、バウンディングボックスを受け取り、PyAutoGUIを使用して中央をクリックします。
14) 一般的なコマンド例を試す: プロジェクトからの例: - 「Spotifyを開いてヒップホップを再生して」 - 「音量を50パーセントに設定して」 - 「Chromeで新しいタブを開いて」 - 「デスクトップにProjectsというフォルダを作成して」 - 「画面に何が表示されている?」 - 「明日午前9時にジョンに電話するリマインダーを作成して」
15) セッションの終了: 「bye」、「goodbye」、「stop listening」、「go to sleep」、「that’s all」と言います。セッションは、約25秒の無音後(デフォルト)に自動的に期限切れになります。
16) (オプション)モデルのカスタマイズ: `PyClicky/ollama_client.py`を編集: - `COMMAND_MODEL = "qwen3:8b"` - `VISION_MODEL = "gemma4:e4b"` 次に、`ollama pull ...`を介して選択した新しいモデルをプルします。
17) (オプション)ウェイクワードとタイムアウトのカスタマイズ: 編集: - `PyClicky/wake_word.py` → `WAKE_PHRASES = [...]` - `PyClicky/companion.py` → `SESSION_IDLE_TIMEOUT = 25.0`
18) 何か問題が発生した場合の迅速なトラブルシューティング: 一般的な修正: - ウェイクワードがトリガーされない:ウェイクワードはGoogle音声認識を使用します。インターネット接続を確認し、ログで`heard:`をチェックしてください。 - スクリーンショットが失敗する:画面録画を許可します。`screencapture -x -t jpg /tmp/test.jpg`をテストしてください。 - カーソルが動かない:アクセシビリティを許可します。 - 録音が停止しない:`webrtcvad-wheels`をインストールします。 - Ollamaエラー:`ollama list`でモデルが存在することを確認し、`ollama serve`を再起動します。

LocalClickyのよくある質問

LocalClickyは、macOSのメニューバーアプリで、すべてをオフラインに保ちながら音声でMacを制御できます。ローカルの文字起こし(Whisper.cpp)、ローカルのAI推論/ビジョン(qwen3やgemma4のようなOllamaモデル)、macOS内蔵のテキスト読み上げ(`say`)、およびカーソル/クリック制御にPyAutoGUIを使用しています。

LocalClickyに類似した最新のAIツール

Advanced Voice
Advanced Voice
Advanced Voiceは、カスタム指示、複数の音声オプション、改善されたアクセントを備えたChatGPTの最先端の音声対話機能で、シームレスな人間とAIのコミュニケーションを実現します
Vagent
Vagent
Vagentは、ユーザーが音声コマンドを通じてカスタムAIエージェントと対話できる軽量の音声インターフェースであり、60以上の言語をサポートする自動化を制御する自然で直感的な方法を提供します
Vapify
Vapify
Vapifyは、エージェンシーがVapi.aiの音声AIソリューションを自社のブランドの下で提供し、クライアント関係を管理し、収益を最大化できるホワイトラベルプラットフォームです
Wedding Speech Genie
Wedding Speech Genie
ウェディングスピーチジーニーは、入力に基づいて3つのカスタムバージョンを生成することで、数分で個別化されたウェディングスピーチを作成し、スピーカーがどんなウェディングロールでも記憶に残るトーストを届けるのを助けるAI駆動のプラットフォームです