
Agent Browser
Agent Browser 是一個節省 token 的瀏覽器自動化工具,使 AI 代理能夠透過自然語言命令控制真實的瀏覽器,提供導航、互動和 ASCII 線框視覺化等功能,以用於網頁自動化任務。
https://github.com/agent-browser-io/browser?ref=producthunt&utm_source=aipure

產品資訊
更新時間:2026年03月13日
什麼是 Agent Browser
Agent Browser 是一個開源套件,彌合了 AI 代理和網頁瀏覽器之間的差距,允許透過簡單的命令自動控制瀏覽器活動。它支援多個介面,包括 MCP(模型上下文協定)、Vercel AI SDK 和 CLI,使其適用於不同的使用案例。該工具旨在使 AI 代理可以訪問網站,同時保持 token 使用的效率,這對於 AI 驅動的自動化任務至關重要。它可以與各種 AI 平臺整合,例如 Cursor、Claude Desktop 和其他相容 MCP 的客戶端。
Agent Browser 的主要功能
Agent Browser 是一款開源瀏覽器自動化工具,它允許 AI 代理通過自然語言命令和節省 token 的 ASCII 線框來控制真實瀏覽器。它支持多個介面,包括 MCP (模型上下文協議)、Vercel AI SDK 和 CLI,使 AI 代理能夠執行網頁導航、互動和自動化任務,同時通過本地執行來維護隱私和安全。
節省 Token 的瀏覽器控制: 使用 ASCII 線框來表示網頁,並提供基於參考的互動 (@e1, @e2),以實現 AI 和瀏覽器之間的高效通信
多平台整合: 支持多種整合方法,包括用於 AI 助手的 MCP、用於開發人員的 Vercel AI SDK 和用於手動測試的 CLI
全面的瀏覽器操作: 提供廣泛的瀏覽器自動化功能,包括導航、點擊、輸入、滾動、螢幕截圖和表單填寫
隱私優先架構: 在用戶的機器上本地運行,可選擇通過 Ollama 使用現有的 Chrome 個人資料和本地 LLM 模型
Agent Browser 的使用案例
網頁測試自動化: 通過讓 AI 代理導航頁面、填寫表單和驗證功能來自動化網站測試流程
內容研究與提取: 使 AI 代理能夠通過自動導航網站、提取內容並以結構化格式保存信息來執行深入研究
表單自動化: 自動化跨不同網站的重複表單填寫任務,同時維護敏感信息的安全
電子商務自動化: 自動化跨各種電子商務平台的產品搜索、價格比較和訂購流程
優點
以隱私為中心,具有本地執行和加密憑證存儲
適用於不同用例的靈活整合選項
通過 ASCII 線框實現節省 token 的通信
缺點
需要本地設置和依賴項
僅限於支持的瀏覽器和平台
在可視模式下運行時可能不太可靠
如何使用 Agent Browser
安裝 Agent Browser: 執行 'npm install @agent-browser-io/browser' 以安裝套件。首次使用時,也請執行 'npx agent-browser install' 以下載 Chromium。
基本用法 - 核心工作流程: 1. 導航到頁面:'agent-browser open <url>' 2. 取得互動式元素:'agent-browser snapshot -i'(傳回帶有 refs @e1、@e2 等的元素)3. 使用 refs 互動:'agent-browser click @e1' 或 'agent-browser fill @e2 \"text\"' 4. 頁面變更後重新快照
設定會話管理(可選): 使用 --session-name 標誌來儲存/還原瀏覽器狀態:'agent-browser --session-name twitter open twitter.com'。會話資料儲存在 ~/.agent-browser/sessions/ 中。也可以透過 AGENT_BROWSER_SESSION_NAME 環境變數設定。
為 AI 助理配置 MCP: 1. 開啟 Cursor 設定 → MCP(或編輯 ~/.cursor/mcp.json)2. 新增配置:{\"mcpServers\": {\"agent-browser\": {\"command\": \"npx\", \"args\": [\"-y\", \"@agent-browser-io/browser\", \"mcp\"]}}} 3. 重新啟動 Cursor/重新載入 MCP
與 Vercel AI SDK 一起使用: 1. 匯入工具:'import { createBrowserTools, AgentBrowser, PlaywrightBrowserBackend } from '@agent-browser-io/browser'' 2. 建立瀏覽器實例 3. 使用 createBrowserTools(browser) 建立工具 4. 將工具與 generateText() 函數一起使用
啟用內容安全(可選): 使用 --content-boundaries 標誌將頁面輸出包裝在分隔符中,幫助 LLM 區分工具輸出和不受信任的內容
處理身份驗證(可選): 儲存憑證:'echo \"pass\" | agent-browser auth save github --url https://github.com/login --username user --password-stdin' 然後使用 'agent-browser auth login github' 登入
Agent Browser 常見問題
Agent Browser 是一個套件,允許 AI 代理以節省 token 的方式控制真實瀏覽器。它能夠透過 ASCII 線框進行導航、點擊、輸入和互動,並且可以透過 MCP 客戶端或 Vercel AI SDK 使用。











