브라우저 도구
adk-browser crate는 AI Agent가 웹 페이지와 상호 작용할 수 있도록 지원하는 46가지의 포괄적인 브라우저 자동화 도구를 제공합니다. WebDriver 프로토콜 (Selenium)을 기반으로 구축되었으며, 모든 WebDriver 호환 브라우저에서 작동합니다.
개요
브라우저 도구를 통해 Agent는 다음을 수행할 수 있습니다.
- 웹 페이지 탐색 및 브라우저 기록 관리
- 텍스트, 링크, 이미지 및 구조화된 데이터 추출
- 양식 채우기 및 페이지 요소와 상호 작용
- 스크린샷 촬영 및 PDF 생성
- 고급 자동화를 위한 JavaScript 실행
- 쿠키, 프레임 및 여러 창 관리
빠른 시작
Cargo.toml에 추가:
[dependencies]
adk-browser = "0.2.0"
adk-agent = "0.2.0"
adk-model = "0.2.0"
필수 조건
WebDriver 서버 시작:
# Using Docker (recommended)
docker run -d -p 4444:4444 -p 7900:7900 --shm-size=2g selenium/standalone-chrome:latest
# Or use ChromeDriver directly
chromedriver --port=4444
기본 사용법
use adk_browser::{BrowserSession, BrowserToolset, BrowserConfig};
use adk_agent::LlmAgentBuilder;
use adk_model::GeminiModel;
use std::sync::Arc;
#[tokio::main]
async fn main() -> Result<(), Box<dyn std::error::Error>> {
// Configure browser session
let config = BrowserConfig::new()
.webdriver_url("http://localhost:4444")
.headless(true)
.viewport(1920, 1080);
// Create and start browser session
let browser = Arc::new(BrowserSession::new(config));
browser.start().await?;
// Create toolset with all 46 tools
let toolset = BrowserToolset::new(browser.clone());
let tools = toolset.all_tools();
// Create AI agent with browser tools
let api_key = std::env::var("GOOGLE_API_KEY")?;
let model = Arc::new(GeminiModel::new(&api_key, "gemini-2.0-flash")?);
let mut builder = LlmAgentBuilder::new("web_agent")
.model(model)
.instruction("You are a web automation assistant. Use browser tools to help users.");
for tool in tools {
builder = builder.tool(tool);
}
let agent = builder.build()?;
// Clean up when done
browser.stop().await?;
Ok(())
}
필터링된 도구
Agent에 필요한 도구만 선택합니다:
let toolset = BrowserToolset::new(browser)
.with_navigation(true) // navigate, back, forward, refresh
.with_extraction(true) // extract_text, extract_attribute, extract_links, page_info, page_source
.with_interaction(true) // click, double_click, type, clear, select
.with_wait(true) // wait_for_element, wait, wait_for_page_load, wait_for_text
.with_screenshot(true) // screenshot
.with_js(true) // evaluate_js, scroll, hover, handle_alert
.with_cookies(false) // Disable cookie tools
.with_frames(false) // Disable frame tools
.with_windows(false) // Disable window tools
.with_actions(false); // Disable advanced actions
let tools = toolset.all_tools();
사용 가능한 도구 (총 46개)
탐색 (4개 도구)
| Tool | Description |
|---|
browser_navigate | URL로 이동 |
browser_back | 이전 기록으로 돌아가기 |
browser_forward | 다음 기록으로 이동 |
browser_refresh | 현재 페이지 새로 고침 |
추출 (5개 도구)
| Tool | Description |
|---|
browser_extract_text | 요소에서 보이는 텍스트 추출 |
browser_extract_attribute | 요소에서 속성 값 가져오기 |
browser_extract_links | 페이지의 모든 링크 추출 |
browser_page_info | 현재 URL 및 제목 가져오기 |
browser_page_source | HTML 소스 가져오기 |
상호 작용 (5개 도구)
| Tool | Description |
|---|
browser_click | 요소 클릭 |
browser_double_click | 요소 더블 클릭 |
browser_type | 요소에 텍스트 입력 |
browser_clear | 입력 필드 지우기 |
browser_select | 드롭다운 옵션 선택 |
대기 (4개 도구)
| Tool | Description |
|---|
browser_wait_for_element | 요소가 나타날 때까지 대기 |
browser_wait | 지정된 시간 동안 대기 |
browser_wait_for_page_load | 페이지 로드될 때까지 대기 |
browser_wait_for_text | 텍스트가 나타날 때까지 대기 |
스크린샷 (1개 도구)
| Tool | Description |
|---|
browser_screenshot | 페이지 또는 요소 스크린샷 캡처 |
JavaScript (4개 도구)
| Tool | Description |
|---|
browser_evaluate_js | JavaScript 코드 실행 |
browser_scroll | 페이지 스크롤 |
browser_hover | 요소 위에 마우스 올리기 |
browser_handle_alert | JavaScript 알림 처리 |
쿠키 (5개 도구)
| Tool | Description |
|---|
browser_get_cookies | 모든 쿠키 가져오기 |
browser_get_cookie | 특정 쿠키 가져오기 |
browser_add_cookie | 쿠키 추가 |
browser_delete_cookie | 쿠키 삭제 |
browser_delete_all_cookies | 모든 쿠키 삭제 |
창/탭 (8개 도구)
| Tool | Description |
|---|
browser_list_windows | 모든 창/탭 나열 |
browser_new_tab | 새 탭 열기 |
browser_new_window | 새 창 열기 |
browser_switch_window | 창으로 전환 |
browser_close_window | 현재 창 닫기 |
browser_maximize_window | 창 최대화 |
browser_minimize_window | 창 최소화 |
browser_set_window_size | 창 크기 설정 |
프레임 (3개 도구)
| Tool | Description |
|---|
browser_switch_to_frame | iframe으로 전환 |
browser_switch_to_parent_frame | 부모 프레임으로 전환 |
browser_switch_to_default_content | 메인 문서로 전환 |
액션 (7개 도구)
| Tool | Description |
|---|
browser_drag_and_drop | 요소 드래그 앤 드롭 |
browser_right_click | 요소에 오른쪽 클릭 |
browser_focus | 요소에 포커스 |
browser_element_state | 요소 상태 가져오기 (표시 여부, 활성화 여부, 선택 여부) |
browser_press_key | 키보드 키 누르기 |
browser_file_upload | 입력 필드에 파일 업로드 |
browser_print_to_pdf | 페이지에서 PDF 생성 |
요소 선택자
요소를 대상으로 하는 도구는 CSS 선택자를 허용합니다:
// ID로
"#login-button"
// 클래스로
".submit-btn"
// 태그 및 속성으로
"input[type='email']"
// 데이터 속성으로
"[data-testid='search']"
// 복합 선택자
"form.login input[name='password']"
// N번째 자식
"ul.menu li:nth-child(3)"
예시: 웹 연구 Agent
use adk_browser::{BrowserSession, BrowserToolset, BrowserConfig};
use adk_agent::LlmAgentBuilder;
use std::sync::Arc;
let config = BrowserConfig::new().webdriver_url("http://localhost:4444");
let browser = Arc::new(BrowserSession::new(config));
browser.start().await?;
let toolset = BrowserToolset::new(browser.clone())
.with_navigation(true)
.with_extraction(true)
.with_screenshot(true);
let mut builder = LlmAgentBuilder::new("researcher")
.model(model)
.instruction(r#"
You are a web research assistant. When asked about a topic:
1. Navigate to relevant websites using browser_navigate
2. Extract key information using browser_extract_text
3. Take screenshots of important content using browser_screenshot
4. Summarize your findings
"#);
for tool in toolset.all_tools() {
builder = builder.tool(tool);
}
let agent = builder.build()?;
예시: 양식 자동화
let agent = LlmAgentBuilder::new("form_filler")
.model(model)
.instruction(r#"
You are a form automation assistant. To fill forms:
1. Use browser_navigate to go to the form page
2. Use browser_extract_text to see form labels
3. Use browser_type to fill text fields
4. Use browser_select for dropdowns
5. Use browser_click to submit
"#)
.build()?;
구성
let config = BrowserConfig::new()
.webdriver_url("http://localhost:4444")
.headless(true)
.viewport(1920, 1080)
.page_load_timeout(30)
.user_agent("Custom User Agent");
let browser = Arc::new(BrowserSession::new(config));
browser.start().await?;
WebDriver 옵션
어떤 WebDriver 호환 서버와도 작동합니다:
| 서버 | 명령어 |
|---|
| Selenium (Chrome) | docker run -d -p 4444:4444 selenium/standalone-chrome |
| Selenium (Firefox) | docker run -d -p 4444:4444 selenium/standalone-firefox |
| ChromeDriver | chromedriver --port=4444 |
| GeckoDriver | geckodriver --port=4444 |
오류 처리
Browser tools는 구조화된 오류를 반환합니다:
match result {
Ok(value) => println!("Success: {:?}", value),
Err(e) => {
match e {
BrowserError::ElementNotFound(selector) => {
println!("Could not find element: {}", selector);
}
BrowserError::Timeout(duration) => {
println!("Operation timed out after {:?}", duration);
}
BrowserError::SessionClosed => {
println!("Browser session was closed");
}
_ => println!("Browser error: {}", e),
}
}
}
예시
# Basic browser session
cargo run --example browser_basic
# AI agent with browser tools
cargo run --example browser_agent
# Full 46-tool interactive example
cargo run --example browser_interactive
# OpenAI-powered browser agent
cargo run --example browser_openai --features openai
모범 사례
- 대기 사용: 동적 콘텐츠와 상호작용하기 전에 항상
browser_wait_* tool을 사용하세요.
- 스크린샷 최소화: 스크린샷은 비용이 많이 들므로 전략적으로 사용하세요.
- 세션 닫기: 작업이 끝나면 항상 browser session을 닫으세요.
- 오류 처리: browser automation은 실패할 수 있으므로, timeout을 적절하게 처리하세요.
- Tool 필터링: 복잡성을 줄이기 위해 Agent에 필요한 tool만 제공하세요.
이전: ← Built-in Tools | 다음: UI Tools →