agent-browser

專為AI Agent建構的無頭瀏覽器自動化CLI，透過原生Rust架構提供緊湊的文字輸出和快速命令執行。

社群:

AI 網頁爬蟲 AI 智能體開發 AI 開發者工具 AI 測試與品質保證 AI 程式碼助手

造訪網站

Atoms - 以 AI 建立網站與應用程式，無需程式碼

Atoms

Sponsor

無需寫程式，幾分鐘內驗證創意、建立網站與應用，獲得第一批客戶。

概覽
替代方案
分析

Atoms - 以 AI 建立網站與應用程式，無需程式碼

產品概覽

agent-browser 是什麼？

agent-browser是一個專為AI Agent和執行其中的程式設計助手（包括Claude Code、Cursor、GitHub Copilot、OpenAI Codex和Google Gemini）建構的瀏覽器自動化命令列工具。它輸出緊湊的無障礙樹而不是原始HTML或JSON，大幅減少token消耗，同時透過基於引用的元素選擇系統為Agent提供對網頁的確定性控制。該工具基於客戶端-守護程序架構建構：原生Rust CLI以近乎瞬時的速度處理命令解析，而持久化的Node.js守護程序管理底層的Playwright瀏覽器實例。擁有50多個命令，涵蓋導航、表單互動、截圖、網路檢查和儲存，agent-browser為跨macOS、Linux和Windows的自動化Agent工作流程提供全週期瀏覽器控制最佳化。

主要功能

基於引用的元素選擇
快照命令返回緊湊的無障礙樹，其中每個元素都帶有唯一的引用（例如 @e1），實現確定性、無需重新查詢的互動，避免歧義。
Token高效輸出
基於文字的無障礙樹輸出每個快照大約使用200-400個token，相比完整DOM輸出的3000-5000個token，保持Agent上下文視窗精簡。
原生Rust CLI效能
命令解析由原生Rust二進位檔案處理，啟動瞬間完成，持久化的Node.js守護程序在背景管理Playwright瀏覽器實例。
50+瀏覽器命令
全面的命令集涵蓋頁面導航、表單填寫、點擊、截圖、網路監控和儲存管理，實現端到端瀏覽器控制。
多會話支援
同時執行多個隔離的瀏覽器實例，每個實例都有獨立的認證狀態，支援並行Agent任務或多帳戶工作流程。
跨平台相容性
提供macOS（ARM64和x64）、Linux（ARM64和x64）和Windows（x64）的原生二進位檔案，npm回退確保廣泛的環境覆蓋。

使用案例

AI程式設計助手 : Claude Code、Cursor或GitHub Copilot內的Agent可以瀏覽文件、測試Web UI並填寫表單，作為自動化程式設計和除錯工作流程的一部分。
網頁抓取和資料提取 : AI Agent可以導航頁面、擷取快照並從網站提取結構化資訊，每次操作的token開銷最小。
自動化UI測試 : QA Agent可以編寫完整的瀏覽器互動序列——點擊、表單提交、截圖比較——使用確定性引用而不是脆弱的CSS選擇器。
多步驟Web自動化 : 複雜的工作流程，如登入服務、填寫多頁表單或監控網路請求，可以透過任何Agent都能發出的shell命令序列進行編排。