浏览器工具
adk-browser crate 提供了 46 种全面的浏览器自动化工具,使 AI Agent 能够与网页进行交互。它基于 WebDriver 协议 (Selenium) 构建,可与任何兼容 WebDriver 的浏览器协同工作。
概述
浏览器工具允许 Agent 执行以下操作:
- 导航网页并管理浏览器历史记录
- 提取文本、链接、图片和结构化数据
- 填写表单并与页面元素交互
- 截取屏幕截图并生成 PDF
- 执行 JavaScript 以进行高级自动化
- 管理 cookies、frames 和多个窗口
快速开始
添加到您的 Cargo.toml:
[dependencies]
adk-browser = "0.2.0"
adk-agent = "0.2.0"
adk-model = "0.2.0"
前提条件
启动 WebDriver 服务器:
# Using Docker (recommended)
docker run -d -p 4444:4444 -p 7900:7900 --shm-size=2g selenium/standalone-chrome:latest
# Or use ChromeDriver directly
chromedriver --port=4444
基本用法
use adk_browser::{BrowserSession, BrowserToolset, BrowserConfig};
use adk_agent::LlmAgentBuilder;
use adk_model::GeminiModel;
use std::sync::Arc;
#[tokio::main]
async fn main() -> Result<(), Box<dyn std::error::Error>> {
// Configure browser session
let config = BrowserConfig::new()
.webdriver_url("http://localhost:4444")
.headless(true)
.viewport(1920, 1080);
// Create and start browser session
let browser = Arc::new(BrowserSession::new(config));
browser.start().await?;
// Create toolset with all 46 tools
let toolset = BrowserToolset::new(browser.clone());
let tools = toolset.all_tools();
// Create AI agent with browser tools
let api_key = std::env::var("GOOGLE_API_KEY")?;
let model = Arc::new(GeminiModel::new(&api_key, "gemini-2.0-flash")?);
let mut builder = LlmAgentBuilder::new("web_agent")
.model(model)
.instruction("You are a web automation assistant. Use browser tools to help users.");
for tool in tools {
builder = builder.tool(tool);
}
let agent = builder.build()?;
// Clean up when done
browser.stop().await?;
Ok(())
}
过滤工具
仅选择您的 Agent 所需的工具:
let toolset = BrowserToolset::new(browser)
.with_navigation(true) // navigate, back, forward, refresh
.with_extraction(true) // extract_text, extract_attribute, extract_links, page_info, page_source
.with_interaction(true) // click, double_click, type, clear, select
.with_wait(true) // wait_for_element, wait, wait_for_page_load, wait_for_text
.with_screenshot(true) // screenshot
.with_js(true) // evaluate_js, scroll, hover, handle_alert
.with_cookies(false) // 禁用 cookie 工具
.with_frames(false) // 禁用 frame 工具
.with_windows(false) // 禁用 window 工具
.with_actions(false); // 禁用高级操作
let tools = toolset.all_tools();
可用工具 (共46个)
导航 (4个工具)
| 工具 | 描述 |
|---|
browser_navigate | 导航到 URL |
browser_back | 返回历史记录 |
browser_forward | 前进历史记录 |
browser_refresh | 刷新当前页面 |
提取 (5个工具)
| 工具 | 描述 |
|---|
browser_extract_text | 从元素中提取可见文本 |
browser_extract_attribute | 从元素中获取属性值 |
browser_extract_links | 提取页面上的所有链接 |
browser_page_info | 获取当前 URL 和标题 |
browser_page_source | 获取 HTML 源代码 |
交互 (5个工具)
| 工具 | 描述 |
|---|
browser_click | 点击一个元素 |
browser_double_click | 双击一个元素 |
browser_type | 在元素中输入文本 |
browser_clear | 清除输入字段 |
browser_select | 选择下拉选项 |
等待 (4个工具)
| 工具 | 描述 |
|---|
browser_wait_for_element | 等待元素出现 |
browser_wait | 等待一段时间 |
browser_wait_for_page_load | 等待页面加载 |
browser_wait_for_text | 等待文本出现 |
截图 (1个工具)
| 工具 | 描述 |
|---|
browser_screenshot | 捕获页面或元素截图 |
JavaScript (4个工具)
| 工具 | 描述 |
|---|
browser_evaluate_js | 执行 JavaScript 代码 |
browser_scroll | 滚动页面 |
browser_hover | 悬停在一个元素上 |
browser_handle_alert | 处理 JavaScript 警告框 |
Cookies (5个工具)
| 工具 | 描述 |
|---|
browser_get_cookies | 获取所有 cookie |
browser_get_cookie | 获取指定 cookie |
browser_add_cookie | 添加一个 cookie |
browser_delete_cookie | 删除一个 cookie |
browser_delete_all_cookies | 删除所有 cookie |
窗口/标签页 (8个工具)
| 工具 | 描述 |
|---|
browser_list_windows | 列出所有窗口/标签页 |
browser_new_tab | 打开新标签页 |
browser_new_window | 打开新窗口 |
browser_switch_window | 切换到窗口 |
browser_close_window | 关闭当前窗口 |
browser_maximize_window | 最大化窗口 |
browser_minimize_window | 最小化窗口 |
browser_set_window_size | 设置窗口大小 |
框架 (3个工具)
| 工具 | 描述 |
|---|
browser_switch_to_frame | 切换到 iframe |
browser_switch_to_parent_frame | 切换到父框架 |
browser_switch_to_default_content | 切换到主文档 |
操作 (7个工具)
| 工具 | 描述 |
|---|
browser_drag_and_drop | 拖放元素 |
browser_right_click | 右键点击元素 |
browser_focus | 聚焦元素 |
browser_element_state | 获取元素状态(可见、启用、选中) |
browser_press_key | 按下键盘按键 |
browser_file_upload | 上传文件到输入框 |
browser_print_to_pdf | 从页面生成 PDF |
元素选择器
定位元素的工具接受 CSS selectors:
// By ID
"#login-button"
// By class
".submit-btn"
// By tag and attribute
"input[type='email']"
// By data attribute
"[data-testid='search']"
// Complex selectors
"form.login input[name='password']"
// Nth child
"ul.menu li:nth-child(3)"
示例:网络研究代理
use adk_browser::{BrowserSession, BrowserToolset, BrowserConfig};
use adk_agent::LlmAgentBuilder;
use std::sync::Arc;
let config = BrowserConfig::new().webdriver_url("http://localhost:4444");
let browser = Arc::new(BrowserSession::new(config));
browser.start().await?;
let toolset = BrowserToolset::new(browser.clone())
.with_navigation(true)
.with_extraction(true)
.with_screenshot(true);
let mut builder = LlmAgentBuilder::new("researcher")
.model(model)
.instruction(r#"
You are a web research assistant. When asked about a topic:
1. Navigate to relevant websites using browser_navigate
2. Extract key information using browser_extract_text
3. Take screenshots of important content using browser_screenshot
4. Summarize your findings
"#);
for tool in toolset.all_tools() {
builder = builder.tool(tool);
}
let agent = builder.build()?;
示例:表单自动化
let agent = LlmAgentBuilder::new("form_filler")
.model(model)
.instruction(r#"
You are a form automation assistant. To fill forms:
1. Use browser_navigate to go to the form page
2. Use browser_extract_text to see form labels
3. Use browser_type to fill text fields
4. Use browser_select for dropdowns
5. Use browser_click to submit
"#)
.build()?;
配置
let config = BrowserConfig::new()
.webdriver_url("http://localhost:4444")
.headless(true)
.viewport(1920, 1080)
.page_load_timeout(30)
.user_agent("Custom User Agent");
let browser = Arc::new(BrowserSession::new(config));
browser.start().await?;
WebDriver 选项
适用于任何 WebDriver 兼容的服务器:
| 服务器 | 命令 |
|---|
| Selenium (Chrome) | docker run -d -p 4444:4444 selenium/standalone-chrome |
| Selenium (Firefox) | docker run -d -p 4444:4444 selenium/standalone-firefox |
| ChromeDriver | chromedriver --port=4444 |
| GeckoDriver | geckodriver --port=4444 |
错误处理
浏览器工具返回结构化错误:
match result {
Ok(value) => println!("Success: {:?}", value),
Err(e) => {
match e {
BrowserError::ElementNotFound(selector) => {
println!("Could not find element: {}", selector);
}
BrowserError::Timeout(duration) => {
println!("Operation timed out after {:?}", duration);
}
BrowserError::SessionClosed => {
println!("Browser session was closed");
}
_ => println!("Browser error: {}", e),
}
}
}
示例
# Basic browser session
cargo run --example browser_basic
# AI agent with browser tools
cargo run --example browser_agent
# Full 46-tool interactive example
cargo run --example browser_interactive
# OpenAI-powered browser agent
cargo run --example browser_openai --features openai
最佳实践
- 使用等待: 始终在与动态内容交互之前使用
browser_wait_* 工具
- 最小化屏幕截图: 屏幕截图开销较大;请策略性地使用它们
- 关闭会话: 完成时务必关闭浏览器会话
- 处理错误: 浏览器自动化可能会失败;请优雅地处理超时
- 筛选工具: 只为 Agent 提供其所需的工具,以降低复杂性
上一页: ← 内置工具 | 下一页: UI 工具 →