브라우저 도구

adk-browser crate는 AI Agent가 웹 페이지와 상호 작용할 수 있도록 지원하는 46가지의 포괄적인 브라우저 자동화 도구를 제공합니다. WebDriver 프로토콜 (Selenium)을 기반으로 구축되었으며, 모든 WebDriver 호환 브라우저에서 작동합니다.

개요

브라우저 도구를 통해 Agent는 다음을 수행할 수 있습니다.

  • 웹 페이지 탐색 및 브라우저 기록 관리
  • 텍스트, 링크, 이미지 및 구조화된 데이터 추출
  • 양식 채우기 및 페이지 요소와 상호 작용
  • 스크린샷 촬영 및 PDF 생성
  • 고급 자동화를 위한 JavaScript 실행
  • 쿠키, 프레임 및 여러 창 관리

빠른 시작

Cargo.toml에 추가:

[dependencies]
adk-browser = "0.2.0"
adk-agent = "0.2.0"
adk-model = "0.2.0"

필수 조건

WebDriver 서버 시작:

# Using Docker (recommended)
docker run -d -p 4444:4444 -p 7900:7900 --shm-size=2g selenium/standalone-chrome:latest

# Or use ChromeDriver directly
chromedriver --port=4444

기본 사용법

use adk_browser::{BrowserSession, BrowserToolset, BrowserConfig};
use adk_agent::LlmAgentBuilder;
use adk_model::GeminiModel;
use std::sync::Arc;

#[tokio::main]
async fn main() -> Result<(), Box<dyn std::error::Error>> {
    // Configure browser session
    let config = BrowserConfig::new()
        .webdriver_url("http://localhost:4444")
        .headless(true)
        .viewport(1920, 1080);

    // Create and start browser session
    let browser = Arc::new(BrowserSession::new(config));
    browser.start().await?;

    // Create toolset with all 46 tools
    let toolset = BrowserToolset::new(browser.clone());
    let tools = toolset.all_tools();

    // Create AI agent with browser tools
    let api_key = std::env::var("GOOGLE_API_KEY")?;
    let model = Arc::new(GeminiModel::new(&api_key, "gemini-2.0-flash")?);

    let mut builder = LlmAgentBuilder::new("web_agent")
        .model(model)
        .instruction("You are a web automation assistant. Use browser tools to help users.");

    for tool in tools {
        builder = builder.tool(tool);
    }

    let agent = builder.build()?;

    // Clean up when done
    browser.stop().await?;

    Ok(())
}

필터링된 도구

Agent에 필요한 도구만 선택합니다:

let toolset = BrowserToolset::new(browser)
    .with_navigation(true)   // navigate, back, forward, refresh
    .with_extraction(true)   // extract_text, extract_attribute, extract_links, page_info, page_source
    .with_interaction(true)  // click, double_click, type, clear, select
    .with_wait(true)         // wait_for_element, wait, wait_for_page_load, wait_for_text
    .with_screenshot(true)   // screenshot
    .with_js(true)           // evaluate_js, scroll, hover, handle_alert
    .with_cookies(false)     // Disable cookie tools
    .with_frames(false)      // Disable frame tools
    .with_windows(false)     // Disable window tools
    .with_actions(false);    // Disable advanced actions

let tools = toolset.all_tools();

사용 가능한 도구 (총 46개)

탐색 (4개 도구)

ToolDescription
browser_navigateURL로 이동
browser_back이전 기록으로 돌아가기
browser_forward다음 기록으로 이동
browser_refresh현재 페이지 새로 고침

추출 (5개 도구)

ToolDescription
browser_extract_text요소에서 보이는 텍스트 추출
browser_extract_attribute요소에서 속성 값 가져오기
browser_extract_links페이지의 모든 링크 추출
browser_page_info현재 URL 및 제목 가져오기
browser_page_sourceHTML 소스 가져오기

상호 작용 (5개 도구)

ToolDescription
browser_click요소 클릭
browser_double_click요소 더블 클릭
browser_type요소에 텍스트 입력
browser_clear입력 필드 지우기
browser_select드롭다운 옵션 선택

대기 (4개 도구)

ToolDescription
browser_wait_for_element요소가 나타날 때까지 대기
browser_wait지정된 시간 동안 대기
browser_wait_for_page_load페이지 로드될 때까지 대기
browser_wait_for_text텍스트가 나타날 때까지 대기

스크린샷 (1개 도구)

ToolDescription
browser_screenshot페이지 또는 요소 스크린샷 캡처

JavaScript (4개 도구)

ToolDescription
browser_evaluate_jsJavaScript 코드 실행
browser_scroll페이지 스크롤
browser_hover요소 위에 마우스 올리기
browser_handle_alertJavaScript 알림 처리

쿠키 (5개 도구)

ToolDescription
browser_get_cookies모든 쿠키 가져오기
browser_get_cookie특정 쿠키 가져오기
browser_add_cookie쿠키 추가
browser_delete_cookie쿠키 삭제
browser_delete_all_cookies모든 쿠키 삭제

창/탭 (8개 도구)

ToolDescription
browser_list_windows모든 창/탭 나열
browser_new_tab새 탭 열기
browser_new_window새 창 열기
browser_switch_window창으로 전환
browser_close_window현재 창 닫기
browser_maximize_window창 최대화
browser_minimize_window창 최소화
browser_set_window_size창 크기 설정

프레임 (3개 도구)

ToolDescription
browser_switch_to_frameiframe으로 전환
browser_switch_to_parent_frame부모 프레임으로 전환
browser_switch_to_default_content메인 문서로 전환

액션 (7개 도구)

ToolDescription
browser_drag_and_drop요소 드래그 앤 드롭
browser_right_click요소에 오른쪽 클릭
browser_focus요소에 포커스
browser_element_state요소 상태 가져오기 (표시 여부, 활성화 여부, 선택 여부)
browser_press_key키보드 키 누르기
browser_file_upload입력 필드에 파일 업로드
browser_print_to_pdf페이지에서 PDF 생성

요소 선택자

요소를 대상으로 하는 도구는 CSS 선택자를 허용합니다:

// ID로
"#login-button"

// 클래스로
".submit-btn"

// 태그 및 속성으로
"input[type='email']"

// 데이터 속성으로
"[data-testid='search']"

// 복합 선택자
"form.login input[name='password']"

// N번째 자식
"ul.menu li:nth-child(3)"

예시: 웹 연구 Agent

use adk_browser::{BrowserSession, BrowserToolset, BrowserConfig};
use adk_agent::LlmAgentBuilder;
use std::sync::Arc;

let config = BrowserConfig::new().webdriver_url("http://localhost:4444");
let browser = Arc::new(BrowserSession::new(config));
browser.start().await?;

let toolset = BrowserToolset::new(browser.clone())
    .with_navigation(true)
    .with_extraction(true)
    .with_screenshot(true);

let mut builder = LlmAgentBuilder::new("researcher")
    .model(model)
    .instruction(r#"
        You are a web research assistant. When asked about a topic:
        1. Navigate to relevant websites using browser_navigate
        2. Extract key information using browser_extract_text
        3. Take screenshots of important content using browser_screenshot
        4. Summarize your findings
    "#);

for tool in toolset.all_tools() {
    builder = builder.tool(tool);
}

let agent = builder.build()?;

예시: 양식 자동화

let agent = LlmAgentBuilder::new("form_filler")
    .model(model)
    .instruction(r#"
        You are a form automation assistant. To fill forms:
        1. Use browser_navigate to go to the form page
        2. Use browser_extract_text to see form labels
        3. Use browser_type to fill text fields
        4. Use browser_select for dropdowns
        5. Use browser_click to submit
    "#)
    .build()?;

구성

let config = BrowserConfig::new()
    .webdriver_url("http://localhost:4444")
    .headless(true)
    .viewport(1920, 1080)
    .page_load_timeout(30)
    .user_agent("Custom User Agent");

let browser = Arc::new(BrowserSession::new(config));
browser.start().await?;

WebDriver 옵션

어떤 WebDriver 호환 서버와도 작동합니다:

서버명령어
Selenium (Chrome)docker run -d -p 4444:4444 selenium/standalone-chrome
Selenium (Firefox)docker run -d -p 4444:4444 selenium/standalone-firefox
ChromeDriverchromedriver --port=4444
GeckoDrivergeckodriver --port=4444

오류 처리

Browser tools는 구조화된 오류를 반환합니다:

match result {
    Ok(value) => println!("Success: {:?}", value),
    Err(e) => {
        match e {
            BrowserError::ElementNotFound(selector) => {
                println!("Could not find element: {}", selector);
            }
            BrowserError::Timeout(duration) => {
                println!("Operation timed out after {:?}", duration);
            }
            BrowserError::SessionClosed => {
                println!("Browser session was closed");
            }
            _ => println!("Browser error: {}", e),
        }
    }
}

예시

# Basic browser session
cargo run --example browser_basic

# AI agent with browser tools
cargo run --example browser_agent

# Full 46-tool interactive example
cargo run --example browser_interactive

# OpenAI-powered browser agent
cargo run --example browser_openai --features openai

모범 사례

  1. 대기 사용: 동적 콘텐츠와 상호작용하기 전에 항상 browser_wait_* tool을 사용하세요.
  2. 스크린샷 최소화: 스크린샷은 비용이 많이 들므로 전략적으로 사용하세요.
  3. 세션 닫기: 작업이 끝나면 항상 browser session을 닫으세요.
  4. 오류 처리: browser automation은 실패할 수 있으므로, timeout을 적절하게 처리하세요.
  5. Tool 필터링: 복잡성을 줄이기 위해 Agent에 필요한 tool만 제공하세요.

이전: ← Built-in Tools | 다음: UI Tools →