Outils de navigateur

Le crate adk-browser fournit 46 outils complets d'automatisation de navigateur qui permettent aux agents IA d'interagir avec les pages web. Basé sur le protocole WebDriver (Selenium), il fonctionne avec n'importe quel navigateur compatible WebDriver.

Aperçu

Les outils de navigateur permettent aux agents de :

  • Naviguer sur les pages web et gérer l'historique du navigateur
  • Extraire du texte, des liens, des images et des données structurées
  • Remplir des formulaires et interagir avec les éléments de la page
  • Prendre des captures d'écran et générer des PDF
  • Exécuter du JavaScript pour une automatisation avancée
  • Gérer les cookies, les cadres et les multiples fenêtres

Démarrage rapide

Ajoutez à votre Cargo.toml :

[dependencies]
adk-browser = "0.2.0"
adk-agent = "0.2.0"
adk-model = "0.2.0"

Prérequis

Démarrez un serveur WebDriver :

# Using Docker (recommended)
docker run -d -p 4444:4444 -p 7900:7900 --shm-size=2g selenium/standalone-chrome:latest

# Or use ChromeDriver directly
chromedriver --port=4444

Utilisation de base

use adk_browser::{BrowserSession, BrowserToolset, BrowserConfig};
use adk_agent::LlmAgentBuilder;
use adk_model::GeminiModel;
use std::sync::Arc;

#[tokio::main]
async fn main() -> Result<(), Box<dyn std::error::Error>> {
    // Configurer la session du navigateur
    let config = BrowserConfig::new()
        .webdriver_url("http://localhost:4444")
        .headless(true)
        .viewport(1920, 1080);

    // Créer et démarrer la session du navigateur
    let browser = Arc::new(BrowserSession::new(config));
    browser.start().await?;

    // Créer un ensemble d'outils avec les 46 outils
    let toolset = BrowserToolset::new(browser.clone());
    let tools = toolset.all_tools();

    // Créer un agent IA avec les outils de navigateur
    let api_key = std::env::var("GOOGLE_API_KEY")?;
    let model = Arc::new(GeminiModel::new(&api_key, "gemini-2.0-flash")?);

    let mut builder = LlmAgentBuilder::new("web_agent")
        .model(model)
        .instruction("You are a web automation assistant. Use browser tools to help users.");

    for tool in tools {
        builder = builder.tool(tool);
    }

    let agent = builder.build()?;

    // Nettoyage après utilisation
    browser.stop().await?;

    Ok(())
}

Outils filtrés

Sélectionnez uniquement les outils dont votre agent a besoin :

let toolset = BrowserToolset::new(browser)
    .with_navigation(true)   // naviguer, retour, avance, rafraîchir
    .with_extraction(true)   // extraire_texte, extraire_attribut, extraire_liens, info_page, source_page
    .with_interaction(true)  // cliquer, double_cliquer, taper, effacer, sélectionner
    .with_wait(true)         // attendre_élément, attendre, attendre_chargement_page, attendre_texte
    .with_screenshot(true)   // capture_écran
    .with_js(true)           // évaluer_js, défiler, survoler, gérer_alerte
    .with_cookies(false)     // Désactiver les outils de cookies
    .with_frames(false)      // Désactiver les outils de cadres
    .with_windows(false)     // Désactiver les outils de fenêtres
    .with_actions(false);    // Désactiver les actions avancées

let tools = toolset.all_tools();

Outils disponibles (46 au total)

ToolDescription
browser_navigateNaviguer vers une URL
browser_backRetourner dans l'historique
browser_forwardAvancer dans l'historique
browser_refreshActualiser la page actuelle

Extraction (5 outils)

ToolDescription
browser_extract_textExtraire le texte visible d'un élément
browser_extract_attributeObtenir la valeur d'un attribut d'un élément
browser_extract_linksExtraire tous les liens de la page
browser_page_infoObtenir l'URL et le titre actuels
browser_page_sourceObtenir le code source HTML

Interaction (5 outils)

ToolDescription
browser_clickCliquer sur un élément
browser_double_clickDouble-cliquer sur un élément
browser_typeSaisir du texte dans un élément
browser_clearEffacer un champ de saisie
browser_selectSélectionner une option de liste déroulante

Attente (4 outils)

ToolDescription
browser_wait_for_elementAttendre qu'un élément apparaisse
browser_waitAttendre une certaine durée
browser_wait_for_page_loadAttendre le chargement de la page
browser_wait_for_textAttendre qu'un texte apparaisse

Captures d'écran (1 outil)

ToolDescription
browser_screenshotCapturer la page ou une capture d'écran d'un élément

JavaScript (4 outils)

ToolDescription
browser_evaluate_jsExécuter du code JavaScript
browser_scrollFaire défiler la page
browser_hoverSurvoler un élément
browser_handle_alertGérer les alertes JavaScript

Cookies (5 outils)

ToolDescription
browser_get_cookiesObtenir tous les cookies
browser_get_cookieObtenir un cookie spécifique
browser_add_cookieAjouter un cookie
browser_delete_cookieSupprimer un cookie
browser_delete_all_cookiesSupprimer tous les cookies

Fenêtres/Onglets (8 outils)

ToolDescription
browser_list_windowsLister toutes les fenêtres/onglets
browser_new_tabOuvrir un nouvel onglet
browser_new_windowOuvrir une nouvelle fenêtre
browser_switch_windowBasculer vers une fenêtre
browser_close_windowFermer la fenêtre actuelle
browser_maximize_windowMaximiser la fenêtre
browser_minimize_windowMinimiser la fenêtre
browser_set_window_sizeDéfinir la taille de la fenêtre

Frames (3 outils)

ToolDescription
browser_switch_to_frameBasculer vers un iframe
browser_switch_to_parent_frameBasculer vers le frame parent
browser_switch_to_default_contentBasculer vers le document principal

Actions (7 outils)

ToolDescription
browser_drag_and_dropFaire glisser et déposer des éléments
browser_right_clickFaire un clic droit sur un élément
browser_focusMettre le focus sur un élément
browser_element_stateObtenir l'état de l'élément (visible, activé, sélectionné)
browser_press_keyAppuyer sur une touche du clavier
browser_file_uploadTélécharger un fichier vers un champ de saisie
browser_print_to_pdfGénérer un PDF à partir de la page

Sélecteurs d'éléments

Les outils qui ciblent des éléments acceptent les sélecteurs CSS :

// Par ID
"#login-button"

// Par classe
".submit-btn"

// Par balise et attribut
"input[type='email']"

// Par attribut de données
"[data-testid='search']"

// Sélecteurs complexes
"form.login input[name='password']"

// N-ième enfant
"ul.menu li:nth-child(3)"

Exemple : Agent de recherche web

use adk_browser::{BrowserSession, BrowserToolset, BrowserConfig};
use adk_agent::LlmAgentBuilder;
use std::sync::Arc;

let config = BrowserConfig::new().webdriver_url("http://localhost:4444");
let browser = Arc::new(BrowserSession::new(config));
browser.start().await?;

let toolset = BrowserToolset::new(browser.clone())
    .with_navigation(true)
    .with_extraction(true)
    .with_screenshot(true);

let mut builder = LlmAgentBuilder::new("researcher")
    .model(model)
    .instruction(r#"
        You are a web research assistant. When asked about a topic:
        1. Navigate to relevant websites using browser_navigate
        2. Extract key information using browser_extract_text
        3. Take screenshots of important content using browser_screenshot
        4. Summarize your findings
    "#);

for tool in toolset.all_tools() {
    builder = builder.tool(tool);
}

let agent = builder.build()?;

Exemple : Automatisation de formulaire

let agent = LlmAgentBuilder::new("form_filler")
    .model(model)
    .instruction(r#"
        You are a form automation assistant. To fill forms:
        1. Use browser_navigate to go to the form page
        2. Use browser_extract_text to see form labels
        3. Use browser_type to fill text fields
        4. Use browser_select for dropdowns
        5. Use browser_click to submit
    "#)
    .build()?;

Configuration

let config = BrowserConfig::new()
    .webdriver_url("http://localhost:4444")
    .headless(true)
    .viewport(1920, 1080)
    .page_load_timeout(30)
    .user_agent("Custom User Agent");

let browser = Arc::new(BrowserSession::new(config));
browser.start().await?;

Options de WebDriver

Fonctionne avec n'importe quel serveur compatible WebDriver :

ServeurCommande
Selenium (Chrome)docker run -d -p 4444:4444 selenium/standalone-chrome
Selenium (Firefox)docker run -d -p 4444:4444 selenium/standalone-firefox
ChromeDriverchromedriver --port=4444
GeckoDrivergeckodriver --port=4444

Gestion des erreurs

Les outils de navigation renvoient des erreurs structurées :

match result {
    Ok(value) => println!("Success: {:?}", value),
    Err(e) => {
        match e {
            BrowserError::ElementNotFound(selector) => {
                println!("Could not find element: {}", selector);
            }
            BrowserError::Timeout(duration) => {
                println!("Operation timed out after {:?}", duration);
            }
            BrowserError::SessionClosed => {
                println!("Browser session was closed");
            }
            _ => println!("Browser error: {}", e),
        }
    }
}

Exemples

# Basic browser session
cargo run --example browser_basic

# AI agent with browser tools
cargo run --example browser_agent

# Full 46-tool interactive example
cargo run --example browser_interactive

# OpenAI-powered browser agent
cargo run --example browser_openai --features openai

Bonnes pratiques

  1. Utiliser les attentes : Utilisez toujours les outils browser_wait_* avant d'interagir avec du contenu dynamique.
  2. Minimiser les captures d'écran : Les captures d'écran sont coûteuses ; utilisez-les de manière stratégique.
  3. Fermer les sessions : Fermez toujours les sessions de navigation une fois terminé.
  4. Gérer les erreurs : L'automatisation du navigateur peut échouer ; gérez les délais d'attente avec élégance.
  5. Filtrer les outils : Ne donnez aux agents que les outils dont ils ont besoin pour réduire la complexité.

Précédent: ← Outils intégrés | Suivant: Outils UI →