
Agent Browser
Agent Browser 是一种节省令牌的浏览器自动化工具,使 AI 代理能够通过自然语言命令控制真实的浏览器,从而为 Web 自动化任务提供导航、交互和 ASCII 线框可视化等功能。
https://github.com/agent-browser-io/browser?ref=producthunt&utm_source=aipure

产品信息
更新于:2026年03月13日
什么是 Agent Browser
Agent Browser 是一个开源软件包,弥合了 AI 代理和 Web 浏览器之间的差距,允许通过简单的命令自动控制浏览器活动。它支持包括 MCP(模型上下文协议)、Vercel AI SDK 和 CLI 在内的多种接口,使其适用于不同的用例。该工具旨在使 AI 代理可以访问网站,同时保持令牌使用效率,这对于 AI 驱动的自动化任务至关重要。它可以与各种 AI 平台集成,例如 Cursor、Claude Desktop 和其他 MCP 兼容的客户端。
Agent Browser 的主要功能
Agent Browser 是一款开源浏览器自动化工具,允许 AI 代理通过自然语言命令和节省令牌的 ASCII 线框来控制真实的浏览器。它支持多种接口,包括 MCP(模型上下文协议)、Vercel AI SDK 和 CLI,使 AI 代理能够执行 Web 导航、交互和自动化任务,同时通过本地执行保持隐私和安全。
节省令牌的浏览器控制: 使用 ASCII 线框来表示网页,并提供基于引用的交互 (@e1, @e2),以实现 AI 和浏览器之间的高效通信
多平台集成: 支持多种集成方法,包括用于 AI 助手的 MCP、用于开发人员的 Vercel AI SDK 和用于手动测试的 CLI
全面的浏览器操作: 提供广泛的浏览器自动化功能,包括导航、点击、打字、滚动、屏幕截图和表单填写
隐私优先架构: 在用户机器上本地运行,可以选择通过 Ollama 使用现有的 Chrome 配置文件和本地 LLM 模型
Agent Browser 的使用场景
Web 测试自动化: 通过让 AI 代理浏览页面、填写表单和验证功能来自动化网站测试流程
内容研究与提取: 使 AI 代理能够通过自动浏览网站、提取内容和以结构化格式保存信息来进行深入研究
表单自动化: 自动化跨不同网站的重复性表单填写任务,同时保持敏感信息的安全
电子商务自动化: 自动化跨各种电子商务平台的产品搜索、价格比较和订单流程
优点
以隐私为中心,具有本地执行和加密的凭据存储
针对不同用例的灵活集成选项
通过 ASCII 线框实现节省令牌的通信
缺点
需要本地设置和依赖项
仅限于支持的浏览器和平台
在视觉模式下运行时可能不太可靠
如何使用 Agent Browser
安装 Agent Browser: 运行 'npm install @agent-browser-io/browser' 安装软件包。首次使用时,还请运行 'npx agent-browser install' 下载 Chromium。
基本用法 - 核心工作流程: 1. 导航到页面:'agent-browser open <url>' 2. 获取交互式元素:'agent-browser snapshot -i'(返回带有引用 @e1、@e2 等的元素)3. 使用引用进行交互:'agent-browser click @e1' 或 'agent-browser fill @e2 \"text\"' 4. 页面更改后重新快照
设置会话管理(可选): 使用 --session-name 标志保存/恢复浏览器状态:'agent-browser --session-name twitter open twitter.com'。会话数据存储在 ~/.agent-browser/sessions/ 中。也可以通过 AGENT_BROWSER_SESSION_NAME 环境变量设置。
为 AI 助手配置 MCP: 1. 打开 Cursor 设置 → MCP(或编辑 ~/.cursor/mcp.json)2. 添加配置:{\"mcpServers\": {\"agent-browser\": {\"command\": \"npx\", \"args\": [\"-y\", \"@agent-browser-io/browser\", \"mcp\"]}}} 3. 重新启动 Cursor/重新加载 MCP
与 Vercel AI SDK 一起使用: 1. 导入工具:'import { createBrowserTools, AgentBrowser, PlaywrightBrowserBackend } from '@agent-browser-io/browser'' 2. 创建浏览器实例 3. 使用 createBrowserTools(browser) 创建工具 4. 将工具与 generateText() 函数一起使用
启用内容安全(可选): 使用 --content-boundaries 标志将页面输出包装在分隔符中,帮助 LLM 区分工具输出和不受信任的内容
处理身份验证(可选): 保存凭据:'echo \"pass\" | agent-browser auth save github --url https://github.com/login --username user --password-stdin' 然后使用 'agent-browser auth login github' 登录
Agent Browser 常见问题
Agent Browser是一个软件包,允许AI代理以节省令牌的方式控制真实的浏览器。它支持通过ASCII线框进行导航、点击、输入和交互,并且可以通过MCP客户端或Vercel AI SDK使用。











