产品概览
什么是agent-browser?
agent-browser是一个专为AI Agent和运行其中的编程助手(包括Claude Code、Cursor、GitHub Copilot、OpenAI Codex和Google Gemini)构建的浏览器自动化命令行工具。它输出紧凑的无障碍树而不是原始HTML或JSON,大幅减少token消耗,同时通过基于引用的元素选择系统为Agent提供对网页的确定性控制。该工具基于客户端-守护进程架构构建:原生Rust CLI以近乎瞬时的速度处理命令解析,而持久化的Node.js守护进程管理底层的Playwright浏览器实例。拥有50多个命令,涵盖导航、表单交互、截图、网络检查和存储,agent-browser为跨macOS、Linux和Windows的自动化Agent工作流提供全周期浏览器控制优化。
主要功能
基于引用的元素选择
快照命令返回紧凑的无障碍树,其中每个元素都带有唯一的引用(例如 @e1),实现确定性、无需重新查询的交互,避免歧义。
Token高效输出
基于文本的无障碍树输出每个快照大约使用200-400个token,相比完整DOM输出的3000-5000个token,保持Agent上下文窗口精简。
原生Rust CLI性能
命令解析由原生Rust二进制文件处理,启动瞬间完成,持久化的Node.js守护进程在后台管理Playwright浏览器实例。
50+浏览器命令
全面的命令集涵盖页面导航、表单填写、点击、截图、网络监控和存储管理,实现端到端浏览器控制。
多会话支持
同时运行多个隔离的浏览器实例,每个实例都有独立的认证状态,支持并行Agent任务或多账户工作流。
跨平台兼容性
提供macOS(ARM64和x64)、Linux(ARM64和x64)和Windows(x64)的原生二进制文件,npm回退确保广泛的环境覆盖。
使用场景
- AI编程助手 : Claude Code、Cursor或GitHub Copilot内的Agent可以浏览文档、测试Web UI并填写表单,作为自动化编程和调试工作流的一部分。
- 网页抓取和数据提取 : AI Agent可以导航页面、捕获快照并从网站提取结构化信息,每次操作的token开销最小。
- 自动化UI测试 : QA Agent可以编写完整的浏览器交互序列——点击、表单提交、截图比较——使用确定性引用而不是脆弱的CSS选择器。
- 多步骤Web自动化 : 复杂的工作流,如登录服务、填写多页表单或监控网络请求,可以通过任何Agent都能发出的shell命令序列进行编排。
常见问题
agent-browser的替代方案
CapSolver
AI 驱动的验证码解决平台,通过 API 和浏览器扩展,为多种验证码类型提供快速、准确、可扩展的解决方案。
Browserless
基于云端的无头浏览器自动化平台,支持 Puppeteer 和 Playwright,实现可扩展、隐身的网页爬取与自动化。
Browserbase
可扩展的无头浏览器基础设施平台,用于网络自动化、测试和数据收集。
hCaptcha
隐私优先的CAPTCHA服务,提供先进的机器人防护、可定制挑战和企业级风险评分。
Tabbit Browser
一款AI原生浏览器,让您与网页对话、用后台Agent自动化任务、构建可重用技能并组织标签页——全部免费使用顶级AI模型。
Qase
面向手动与自动化QA测试的现代化测试管理平台,具备AI自动化、集成能力与可定制报告功能。
CapMonster Cloud
AI驱动的云服务,支持多种验证码类型的快速、精准、自动识别,API与浏览器扩展集成便捷。
testRigor
AI驱动的无代码测试自动化平台,支持用纯英文快速创建和维护端到端功能测试。
agent-browser网站分析
🇨🇳 CN: 24.97%
🇺🇸 US: 21.83%
🇰🇷 KR: 8.99%
🇮🇳 IN: 5.69%
🇸🇬 SG: 4.52%
Others: 34%
