
Agent Browser
Agent Browser là một công cụ tự động hóa trình duyệt hiệu quả về token, cho phép các tác nhân AI điều khiển các trình duyệt thực thông qua các lệnh ngôn ngữ tự nhiên, cung cấp các tính năng như điều hướng, tương tác và trực quan hóa khung dây ASCII cho các tác vụ tự động hóa web.
https://github.com/agent-browser-io/browser?ref=producthunt&utm_source=aipure

Thông tin Sản phẩm
Đã cập nhật:Mar 13, 2026
Agent Browser là gì
Agent Browser là một gói mã nguồn mở giúp thu hẹp khoảng cách giữa các tác nhân AI và trình duyệt web, cho phép kiểm soát tự động các hoạt động của trình duyệt thông qua các lệnh đơn giản. Nó hỗ trợ nhiều giao diện bao gồm MCP (Giao thức ngữ cảnh mô hình), Vercel AI SDK và CLI, làm cho nó trở nên linh hoạt cho các trường hợp sử dụng khác nhau. Công cụ này được thiết kế để làm cho các trang web có thể truy cập được đối với các tác nhân AI đồng thời duy trì hiệu quả trong việc sử dụng token, điều này rất quan trọng đối với các tác vụ tự động hóa dựa trên AI. Nó có thể được tích hợp với nhiều nền tảng AI khác nhau như Cursor, Claude Desktop và các ứng dụng khách tương thích với MCP khác.
Các Tính năng Chính của Agent Browser
Agent Browser là một công cụ tự động hóa trình duyệt mã nguồn mở cho phép các tác nhân AI điều khiển các trình duyệt thực thông qua các lệnh ngôn ngữ tự nhiên và wireframe ASCII tiết kiệm token. Nó hỗ trợ nhiều giao diện bao gồm MCP (Model Context Protocol), Vercel AI SDK và CLI, cho phép các tác nhân AI thực hiện các tác vụ điều hướng web, tương tác và tự động hóa trong khi vẫn duy trì quyền riêng tư và bảo mật thông qua thực thi cục bộ.
Kiểm soát trình duyệt tiết kiệm token: Sử dụng wireframe ASCII để biểu diễn các trang web và cung cấp tương tác dựa trên tham chiếu (@e1, @e2) để giao tiếp hiệu quả giữa AI và trình duyệt
Tích hợp đa nền tảng: Hỗ trợ nhiều phương pháp tích hợp bao gồm MCP cho trợ lý AI, Vercel AI SDK cho nhà phát triển và CLI để kiểm tra thủ công
Các hành động trình duyệt toàn diện: Cung cấp một loạt các khả năng tự động hóa trình duyệt bao gồm điều hướng, nhấp, nhập, cuộn, chụp ảnh màn hình và điền biểu mẫu
Kiến trúc ưu tiên quyền riêng tư: Chạy cục bộ trên máy của người dùng với tùy chọn sử dụng các cấu hình Chrome hiện có và các mô hình LLM cục bộ thông qua Ollama
Các Trường hợp Sử dụng của Agent Browser
Tự động hóa kiểm thử web: Tự động hóa các quy trình kiểm thử trang web bằng cách cho phép các tác nhân AI điều hướng qua các trang, điền vào biểu mẫu và xác minh chức năng
Nghiên cứu & trích xuất nội dung: Cho phép các tác nhân AI thực hiện nghiên cứu sâu bằng cách tự động điều hướng các trang web, trích xuất nội dung và lưu thông tin ở các định dạng có cấu trúc
Tự động hóa biểu mẫu: Tự động hóa các tác vụ điền biểu mẫu lặp đi lặp lại trên các trang web khác nhau trong khi vẫn duy trì tính bảo mật của thông tin nhạy cảm
Tự động hóa thương mại điện tử: Tự động hóa tìm kiếm sản phẩm, so sánh giá và quy trình đặt hàng trên các nền tảng thương mại điện tử khác nhau
Ưu điểm
Tập trung vào quyền riêng tư với thực thi cục bộ và lưu trữ thông tin xác thực được mã hóa
Tùy chọn tích hợp linh hoạt cho các trường hợp sử dụng khác nhau
Giao tiếp tiết kiệm token thông qua wireframe ASCII
Nhược điểm
Yêu cầu thiết lập và phụ thuộc cục bộ
Giới hạn ở các trình duyệt và nền tảng được hỗ trợ
Có thể kém tin cậy hơn khi chạy ở chế độ trực quan
Cách Sử dụng Agent Browser
Cài đặt Agent Browser: Chạy 'npm install @agent-browser-io/browser' để cài đặt gói. Đối với lần sử dụng đầu tiên, hãy chạy 'npx agent-browser install' để tải xuống Chromium.
Sử dụng cơ bản - Quy trình làm việc cốt lõi: 1. Điều hướng đến trang: 'agent-browser open <url>' 2. Lấy các phần tử tương tác: 'agent-browser snapshot -i' (trả về các phần tử có tham chiếu @e1, @e2, v.v.) 3. Tương tác bằng cách sử dụng tham chiếu: 'agent-browser click @e1' hoặc 'agent-browser fill @e2 \"text\"' 4. Chụp lại sau khi trang thay đổi
Thiết lập quản lý phiên (Tùy chọn): Sử dụng cờ --session-name để lưu/khôi phục trạng thái trình duyệt: 'agent-browser --session-name twitter open twitter.com'. Dữ liệu phiên được lưu trữ trong ~/.agent-browser/sessions/. Cũng có thể đặt thông qua biến môi trường AGENT_BROWSER_SESSION_NAME.
Định cấu hình MCP cho Trợ lý AI: 1. Mở cài đặt Cursor → MCP (hoặc chỉnh sửa ~/.cursor/mcp.json) 2. Thêm cấu hình: {\"mcpServers\": {\"agent-browser\": {\"command\": \"npx\", \"args\": [\"-y\", \"@agent-browser-io/browser\", \"mcp\"]}}} 3. Khởi động lại Cursor/tải lại MCP
Sử dụng với Vercel AI SDK: 1. Nhập công cụ: 'import { createBrowserTools, AgentBrowser, PlaywrightBrowserBackend } from \'@agent-browser-io/browser\'' 2. Tạo phiên bản trình duyệt 3. Tạo công cụ bằng createBrowserTools(browser) 4. Sử dụng công cụ với hàm generateText()
Bật bảo mật nội dung (Tùy chọn): Sử dụng cờ --content-boundaries để gói đầu ra trang trong dấu phân cách, giúp LLM phân biệt giữa đầu ra công cụ và nội dung không đáng tin cậy
Xử lý xác thực (Tùy chọn): Lưu thông tin đăng nhập: 'echo \"pass\" | agent-browser auth save github --url https://github.com/login --username user --password-stdin' sau đó sử dụng 'agent-browser auth login github' để đăng nhập
Câu hỏi Thường gặp về Agent Browser
Agent Browser là một package cho phép các AI agent điều khiển một trình duyệt thực một cách hiệu quả về token. Nó cho phép điều hướng, nhấp chuột, nhập liệu và tương tác thông qua wireframe ASCII, và có thể được sử dụng thông qua các MCP client hoặc với Vercel AI SDK.
Video Agent Browser
Bài viết phổ biến

Hướng dẫn triển khai OpenClaw: Cách tự lưu trữ một AI Agent thực thụ (Cập nhật 2026)
Mar 10, 2026

Hướng dẫn sử dụng Atoms 2026: Xây dựng Bảng điều khiển SaaS hoàn chỉnh trong 20 phút (Thực hành với AIPURE)
Mar 2, 2026

Các Công Cụ AI Phổ Biến Nhất Năm 2025 | Bản Cập Nhật 2026 từ AIPURE
Feb 10, 2026

Moltbook AI: Mạng xã hội Dành cho AI Thuần túy Đầu tiên của Năm 2026
Feb 5, 2026







