LocalClickyは私の音声、スクリーンショット、またはコマンドをクラウドに送信しますか？

いいえ、そのコアパイプラインは、音声、スクリーンショット、コマンドがすべてマシン上に留まるように設計されています（クラウドAPIなし、APIキーなし、サブスクリプションなし）。ただし、デフォルトのウェイクワード検出はGoogle音声認識を使用するため、インターネット接続が必要です。

LocalClickyは私のMacで何ができますか？

アプリの開閉、システム音量の調整、Spotifyの制御（再生/検索/スキップ/音量）、ファイルとフォルダの管理、シェルコマンドの実行、ChromeへのJavaScriptの挿入、自然言語の日付でのリマインダー作成、画面上の内容に基づいてマウスの移動/クリックが可能です。

音声セッションを開始および終了するにはどうすればよいですか？

セッションを開始するには「Computer」と言います。応答後もアクティブな状態が続くため、ウェイクワードを繰り返すことなく、続けてコマンドを発行できます。終了するには「bye」、「goodbye」、「stop listening」、「go to sleep」、「that’s all」と言います。また、25秒間沈黙すると自動的に終了します。

LocalClickyは画面上のものをどのようにクリックしますか？

コマンドが画面操作を必要とする場合、`screencapture`を介してスクリーンショットを撮り、サイズを変更し（デフォルトの最大幅1280px）、ローカルのビジョンモデル（デフォルトはOllama経由のgemma4:e4b）に送信し、[CLICK:x1,y1,x2,y2]のようなバウンディングボックスを受け取り、中心を計算してPyAutoGUIを使用してクリックします。

LocalClickyを実行するための前提条件は何ですか？

macOS 12以降、Python 3.11以降、Homebrew、ローカルで実行されているOllama、およびWhisper.cppがインストールされていること（さらにWhisperモデルファイル）が必要です。プロジェクトノートには、モデルを実行するための約8GBのRAM空き容量と、ウェイクワード検出のためのインターネット接続が必要です。

LocalClickyにはどのようなmacOSの許可が必要ですか？

マイクの許可（音声録音）、画面録画の許可（ビジョンのためのスクリーンショット）、およびアクセシビリティの許可（カーソルの移動/クリック）が必要です。これらは、プロジェクトのvenv内の`python3`バイナリに（またはPythonが選択できない場合はターミナルに）付与する必要があります。

LocalClickyが使用するモデルを変更できますか？

はい。`ollama_client.py`を編集して、コマンドモデル（デフォルトはqwen3:8b）とビジョンモデル（デフォルトはgemma4:e4b）を変更できます。コマンドモデルは信頼性の高いツール呼び出しをサポートする必要があり、ビジョンモデルはマルチモーダルである必要があります。

LocalClicky

WebsiteFreeAI Voice Assistants

LocalClickyは、ローカルのWhisper転写、ローカルのOllama LLM（ビジョンを含む）、およびPyAutoGUIを使用して、データをクラウドに送信することなくMacを制御し、カーソルを移動/クリックし、コマンドを実行する、完全にオフラインのmacOS音声アシスタントです。

ウェブサイトを訪問

このツールを宣伝する

https://github.com/dikshantrajput/LocalClicky?ref=producthunt&utm_source=aipure

概要
動画
代替案

製品情報

更新日:2026年06月08日

LocalClickyとは

LocalClickyは、macOS用のオープンソースのメニューバーアプリで、音声、スクリーンショット、コマンドを完全にデバイス上に保持しながら、音声でコンピューターを制御できます。これは、クラウド音声アシスタントに代わるプライバシー重視の設計です。APIキー、サブスクリプション、転写や推論のための外部クラウド処理は不要です。アプリの開閉、システム設定の調整、Spotifyの制御、ファイルの管理、シェルコマンドの実行、リマインダーの作成、さらにはビジョンベースのクリックによる画面上のUI要素との対話まで、すべてを邪魔にならない軽量なメニューバーから実行できます。

LocalClickyの主な機能

LocalClickyは、オフラインファーストのmacOSメニューバー音声アシスタントで、音声、スクリーンショット、コマンドコンテキストをデバイス上に保持しながら、音声コマンドでMacを制御できます。ローカルでの文字起こしにはwhisper.cppを、推論と画面理解にはOllama（例：ツール呼び出しにはqwen3、視覚にはgemma4）を、アプリの起動、ファイルの管理、Spotifyの制御、リマインダーの作成、画面上のUI要素のクリックなどのアクションを実行するためにmacOS/Pythonオートメーション（AppleScript、シェル、PyAutoGUI）を使用します。音声アクティビティ検出、オプションのオンデマンド画面「ビジョン」、短期的な会話メモリを備えたセッションベースの多段階ワークフローをサポートしています。

完全なローカル処理（プライバシーファースト）: 文字起こし（whisper.cpp）、推論/ビジョン（Ollamaモデル）、および実行はすべてマシン上で行われます。クラウドAPI、APIキー、コア機能のサブスクリプションは不要です。

セッションモード付きメニューバーコンパニオン: メニューバーアプリとして静かに実行され（Dockアイコンなし）、ウェイクフレーズ（「Computer」）でセッションを開始し、ユーザーが閉じるかタイムアウトするまで連続してコマンドを受け付けます。

音声アクティビティ検出（VAD）録音: 話し終えると自動的に録音を停止し（webrtcvadを使用）、固定時間の録音を回避し、コマンドの応答時間を短縮します。

オンデマンド画面ビジョン + UIクリック: 必要に応じて、スクリーンショットをキャプチャし、ビジョンモデルを使用してUI要素を特定し、「通知ベルをクリック」などのアクションのためにバウンディングボックスを使用してカーソルを移動/クリックします。

ツールベースのMacオートメーション: シェルコマンドの実行、システム状態の照会、AppleScriptによるアプリの自動化（例：Spotify/Chrome）、ファイルの管理、自然言語からのリマインダー作成が可能です。

検証付きマルチラウンドツール呼び出し: 多段階ワークフロー（最大数回のツールラウンド）を実行し、結果を確認し、アクションを確定または再試行してタスクをより確実に完了できます。

LocalClickyのユースケース

知識労働者向けのハンズフリー生産性: 現在のタスクに集中しながら、音声でアプリを開閉したり、タブを管理したり、システム設定を調整したり、リマインダーを作成したり、迅速なワークフローを実行したりできます。

アクセシビリティとマウス操作の削減: 音声駆動制御の恩恵を受けるユーザーが、絶え間ない手動ナビゲーションなしでカーソルの移動/クリックや一般的なOS/アプリのアクションを可能にすることで支援します。

ワークステーションでの開発者およびITオートメーション: シェルコマンドのトリガー、システム情報の照会、ファイルの管理、ルーチン設定/診断のオーケストレーションを音声で行い、機密性の高い環境向けにすべてローカルで実行します。

クリエイティブソフトウェアのガイダンスとUIナビゲーション: 画面認識型のポインティング/クリックを使用して、複雑なUI（例：デザイン/ビデオツール）をナビゲートし、反復的なインターフェースアクションをより迅速に実行します。

プライバシーに配慮したワークフロー（規制または機密）: 文字起こしとビジョンはローカルで実行でき、クラウドキーは不要なため、画面/音声データがデバイスから離れてはならないシナリオに適しています。

メリット

プライバシー重視：音声、スクリーンショット、コマンドはデバイス上に保持されるように設計されています（コアパイプラインにクラウドAPIは使用しません）。

広範なMac制御：音声文字起こし、ローカルLLMツール呼び出し、自動化（シェル/AppleScript/PyAutoGUI）を組み合わせて実用的なタスクを実行します。

セッションベースのインタラクション：ウェイクワードを繰り返すことなく、連続したコマンドをサポートし、多段階作業の使いやすさを向上させます。

デメリット

ウェイクワード検出にはインターネットが必要です（Google Speech Recognitionを使用）。そのため、デフォルトでは完全にオフラインのエンドツーエンドではありません。

macOSの権限（マイク、画面録画、アクセシビリティ）が必要であり、管理された環境では設定のハードルとなる場合があります。

ビジョンベースのクリックはモデル/UIによっては不正確になる可能性があり、複雑なタスクではツールラウンドの制限に達する可能性があります。

LocalClickyの使い方

1) 要件の確認: macOS 12以降、Python 3.11以降、Homebrew、および十分な空きRAM（約8GB以上）を使用してください。また、Ollamaがローカルで実行されている必要があります。注：デフォルトのウェイクワード検出はGoogle音声認識を使用するため、ウェイクワード機能にはインターネット接続が必要です。

2) Whisper.cppのインストール（ローカル転写）: 実行：`brew install whisper-cpp`

3) Whisperモデルファイルのダウンロード: 実行： `mkdir -p /opt/homebrew/share/whisper-cpp/models` `curl -L -o /opt/homebrew/share/whisper-cpp/models/ggml-base.en.bin "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-base.en.bin"`

4) Ollamaのインストール（ローカルLLM + ビジョン）: 実行：`brew install ollama`

5) Ollamaサーバーの起動: 実行：`ollama serve`（実行したままにする）。

6) デフォルトのLocalClickyモデルのプル: 実行： `ollama pull qwen3:8b`（コマンド/ツール呼び出しモデル） `ollama pull gemma4:e4b`（画面理解に使用されるビジョンモデル）

7) Python環境のセットアップ: リポジトリからアプリフォルダに移動し、venvを作成します： `cd PyClicky` `python3 -m venv venv` `source venv/bin/activate` `pip install -r requirements.txt`

8) （オプション）より良い録音停止動作のための無音検出のインストール: VADをインストールすると、話し終えると録音が自動停止します： `pip install webrtcvad-wheels` これがない場合、録音は30秒のハードキャップにフォールバックします。

9) LocalClickyの実行: `PyClicky/`からvenvをアクティブにして実行： `source venv/bin/activate` 必要に応じて、Ollamaをバックグラウンドで起動：`ollama serve &` 次に実行：`python main.py` LocalClickyはmacOSメニューバーに表示されます（Dockアイコンなし）。

10) macOSのアクセス許可の付与（1回限り）: venv Pythonバイナリ（`/path/to/PyClicky/venv/bin/python3`）またはターミナル（Pythonがそれらを継承するように）にアクセス許可を付与します： - マイク：初回実行時にプロンプトが表示されます - 画面録画：システム設定 → プライバシーとセキュリティ → 画面録画 - アクセシビリティ：システム設定 → プライバシーとセキュリティ → アクセシビリティこれらは、音声入力、ビジョン用のスクリーンショット、カーソル/クリック制御に必要です。

11) 音声セッションの開始（ウェイクワード）: 「Computer」と言ってセッションを開始します。LocalClickyは録音を開始し、話し終えると自動停止し（VADがインストールされている場合）、ローカルで転写し、応答します。

12) ウェイクワードを繰り返さずにコマンドを継続して発行する: 応答後、LocalClickyはアクティブなセッションを維持し、すぐに次のコマンドをリッスンします（「Computer」を再度言う必要はありません）。

13) 画面認識コマンドの使用（ビジョン + カーソル制御）: UI要素との対話を要求します。例：「通知ベルをクリックして」。LocalClickyはスクリーンショットを撮り（`screencapture`経由）、ローカルビジョンモデルに送信し、バウンディングボックスを受け取り、PyAutoGUIを使用して中央をクリックします。

14) 一般的なコマンド例を試す: プロジェクトからの例： - 「Spotifyを開いてヒップホップを再生して」 - 「音量を50パーセントに設定して」 - 「Chromeで新しいタブを開いて」 - 「デスクトップにProjectsというフォルダを作成して」 - 「画面に何が表示されている？」 - 「明日午前9時にジョンに電話するリマインダーを作成して」

15) セッションの終了: 「bye」、「goodbye」、「stop listening」、「go to sleep」、「that’s all」と言います。セッションは、約25秒の無音後（デフォルト）に自動的に期限切れになります。

16) （オプション）モデルのカスタマイズ: `PyClicky/ollama_client.py`を編集： - `COMMAND_MODEL = "qwen3:8b"` - `VISION_MODEL = "gemma4:e4b"` 次に、`ollama pull ...`を介して選択した新しいモデルをプルします。

17) （オプション）ウェイクワードとタイムアウトのカスタマイズ: 編集： - `PyClicky/wake_word.py` → `WAKE_PHRASES = [...]` - `PyClicky/companion.py` → `SESSION_IDLE_TIMEOUT = 25.0`

18) 何か問題が発生した場合の迅速なトラブルシューティング: 一般的な修正： - ウェイクワードがトリガーされない：ウェイクワードはGoogle音声認識を使用します。インターネット接続を確認し、ログで`heard:`をチェックしてください。 - スクリーンショットが失敗する：画面録画を許可します。`screencapture -x -t jpg /tmp/test.jpg`をテストしてください。 - カーソルが動かない：アクセシビリティを許可します。 - 録音が停止しない：`webrtcvad-wheels`をインストールします。 - Ollamaエラー：`ollama list`でモデルが存在することを確認し、`ollama serve`を再起動します。

LocalClickyのよくある質問

LocalClickyは、macOSのメニューバーアプリで、すべてをオフラインに保ちながら音声でMacを制御できます。ローカルの文字起こし（Whisper.cpp）、ローカルのAI推論/ビジョン（qwen3やgemma4のようなOllamaモデル）、macOS内蔵のテキスト読み上げ（`say`）、およびカーソル/クリック制御にPyAutoGUIを使用しています。