agent-browser

AI Agent를 위해 구축된 헤드리스 브라우저 자동화 CLI로, 네이티브 Rust 아키텍처를 통해 컴팩트한 텍스트 출력과 빠른 명령 실행을 제공합니다.

커뮤니티:

AI 웹 스크레이퍼 AI 테스트 및 QA AI 개발자 도구

웹사이트 방문

Atoms - AI로 코드 없이 웹사이트·앱 제작

InsForge

Sponsor

AWS의 agent-native 대안. CLI와 skills로 full-stack 앱을 end-to-end로 실행

개요
대안
분석

Atoms - AI로 코드 없이 웹사이트·앱 제작

제품 개요

agent-browser이란 무엇인가요?

agent-browser는 AI Agent와 그들이 실행되는 코딩 어시스턴트(Claude Code, Cursor, GitHub Copilot, OpenAI Codex, Google Gemini 포함)를 위해 특별히 구축된 브라우저 자동화 명령줄 도구입니다. 원시 HTML이나 JSON 대신 컴팩트한 접근성 트리를 출력하여 토큰 소비를 대폭 줄이면서 참조 기반 요소 선택 시스템을 통해 Agent들에게 웹 페이지에 대한 결정적인 제어를 제공합니다. 이 도구는 클라이언트-데몬 아키텍처로 구축되었습니다: 네이티브 Rust CLI가 거의 즉시 명령 파싱을 처리하고, 지속적인 Node.js 데몬이 기본 Playwright 브라우저 인스턴스를 관리합니다. 탐색, 폼 상호작용, 스크린샷, 네트워크 검사, 스토리지를 포괄하는 50개 이상의 명령으로, agent-browser는 macOS, Linux, Windows에서 자동화된 Agent 워크플로우를 위한 전체 주기 브라우저 제어 최적화를 제공합니다.

주요 기능

참조 기반 요소 선택
스냅샷 명령은 모든 요소가 고유한 참조(예: @e1)를 가진 컴팩트한 접근성 트리를 반환하여 모호함 없이 결정적이고 재쿼리가 필요 없는 상호작용을 가능하게 합니다.
Token 효율적 출력
텍스트 기반 접근성 트리 출력은 스냅샷당 약 200-400개의 토큰을 사용하며, 이는 전체 DOM 출력의 3,000-5,000개 토큰과 비교하여 Agent 컨텍스트 윈도우를 간결하게 유지합니다.
네이티브 Rust CLI 성능
명령 파싱은 즉시 시작되는 네이티브 Rust 바이너리로 처리되며, 지속적인 Node.js 데몬이 백그라운드에서 Playwright 브라우저 인스턴스를 관리합니다.
50개 이상의 브라우저 명령
페이지 탐색, 폼 작성, 클릭, 스크린샷, 네트워크 모니터링, 스토리지 관리를 포괄하는 포괄적인 명령 세트로 엔드투엔드 브라우저 제어를 제공합니다.
다중 세션 지원
각각 독립적인 인증 상태를 가진 여러 격리된 브라우저 인스턴스를 동시에 실행하여 병렬 Agent 작업 또는 다중 계정 워크플로우를 지원합니다.
크로스 플랫폼 호환성
macOS(ARM64 및 x64), Linux(ARM64 및 x64), Windows(x64)용 네이티브 바이너리를 제공하며, npm 폴백으로 광범위한 환경 커버리지를 보장합니다.

사용 사례

AI 코딩 어시스턴트 : Claude Code, Cursor 또는 GitHub Copilot 내의 Agent들이 자동화된 코딩 및 디버깅 워크플로우의 일부로 문서를 탐색하고, 웹 UI를 테스트하며, 폼을 작성할 수 있습니다.
웹 스크래핑 및 데이터 추출 : AI Agent들이 페이지를 탐색하고, 스냅샷을 캡처하며, 작업당 최소한의 토큰 오버헤드로 웹사이트에서 구조화된 정보를 추출할 수 있습니다.
자동화된 UI 테스트 : QA Agent들이 취약한 CSS 선택자 대신 결정적인 참조를 사용하여 완전한 브라우저 상호작용 시퀀스(클릭, 폼 제출, 스크린샷 비교)를 스크립팅할 수 있습니다.
다단계 웹 자동화 : 서비스 로그인, 다중 페이지 폼 작성, 네트워크 요청 모니터링과 같은 복잡한 워크플로우를 모든 Agent가 발행할 수 있는 셸 명령 시퀀스를 통해 조율할 수 있습니다.