Intégration de mistral.rs

Exécutez des LLM localement avec l'inférence native Rust - pas de serveurs externes, pas de clés API.


Qu'est-ce que mistral.rs ?

mistral.rs est un moteur d'inférence Rust haute performance qui exécute les LLM directement sur votre matériel. ADK-Rust l'intègre via la crate adk-mistralrs.

Points forts :

  • 🦀 Native Rust - Pas de Python, pas de serveurs externes
  • 🔒 Entièrement hors ligne - Pas de clés API ni d'internet requis
  • Accélération matérielle - Optimisations CUDA, Metal, CPU
  • 📦 Quantification - Exécutez de grands modèles sur du matériel limité
  • 🔧 LoRA adapters - Support de modèles affinés avec échange à chaud
  • 👁️ Vision models - Capacités de compréhension d'images
  • 🎯 Multi-model - Servez plusieurs modèles à partir d'une seule instance

Étape 1 : Ajouter les dépendances

Puisque adk-mistralrs dépend de dépôts git, il ne peut pas être publié sur crates.io. Ajoutez-le via git :

[package]
name = "my-local-agent"
version = "0.1.0"
edition = "2024"

[dependencies]
adk-mistralrs = { git = "https://github.com/zavora-ai/adk-rust" }
adk-agent = { git = "https://github.com/zavora-ai/adk-rust" }
adk-rust = { git = "https://github.com/zavora-ai/adk-rust" }
tokio = { version = "1", features = ["full"] }
anyhow = "1.0"

Pour l'accélération matérielle, ajoutez des drapeaux de fonctionnalité :

# macOS with Apple Silicon
adk-mistralrs = { git = "https://github.com/zavora-ai/adk-rust", features = ["metal"] }

# NVIDIA GPU (requires CUDA toolkit)
adk-mistralrs = { git = "https://github.com/zavora-ai/adk-rust", features = ["cuda"] }

Étape 2 : Exemple de base

Chargez un modèle de HuggingFace et exécutez-le localement :

use adk_agent::LlmAgentBuilder;
use adk_mistralrs::{Llm, MistralRsConfig, MistralRsModel, ModelSource};
use adk_rust::Launcher;
use std::sync::Arc;

#[tokio::main]
async fn main() -> anyhow::Result<()> {
    // Load model from HuggingFace (downloads on first run)
    let config = MistralRsConfig::builder()
        .model_source(ModelSource::huggingface("microsoft/Phi-3.5-mini-instruct"))
        .build();

    println!("Loading model (this may take a while on first run)...");
    let model = MistralRsModel::new(config).await?;
    println!("Model loaded: {}", model.name());

    // Create agent
    let agent = LlmAgentBuilder::new("local_assistant")
        .description("Local AI assistant powered by mistral.rs")
        .instruction("You are a helpful assistant running locally. Be concise.")
        .model(Arc::new(model))
        .build()?;

    // Run interactive chat
    Launcher::new(Arc::new(agent)).run().await?;

    Ok(())
}

Ce qui se passe :

  1. La première exécution télécharge le modèle de HuggingFace (~2-8 Go selon le modèle)
  2. Le modèle est mis en cache localement dans ~/.cache/huggingface/
  3. Les exécutions suivantes chargent instantanément à partir du cache

Étape 3 : Réduire la mémoire avec la quantification

Les grands modèles nécessitent beaucoup de RAM. Utilisez ISQ (In-Situ Quantization) pour réduire la mémoire :

use adk_agent::LlmAgentBuilder;
use adk_mistralrs::{Llm, MistralRsConfig, MistralRsModel, ModelSource, QuantizationLevel};
use adk_rust::Launcher;
use std::sync::Arc;

#[tokio::main]
async fn main() -> anyhow::Result<()> {
    // Load model with 4-bit quantization for reduced memory
    let config = MistralRsConfig::builder()
        .model_source(ModelSource::huggingface("microsoft/Phi-3.5-mini-instruct"))
        .isq(QuantizationLevel::Q4_0) // 4-bit quantization
        .paged_attention(true) // Memory-efficient attention
        .build();

    println!("Loading quantized model...");
    let model = MistralRsModel::new(config).await?;
    println!("Model loaded: {}", model.name());

    let agent = LlmAgentBuilder::new("quantized_assistant")
        .instruction("You are a helpful assistant. Be concise.")
        .model(Arc::new(model))
        .build()?;

    Launcher::new(Arc::new(agent)).run().await?;

    Ok(())
}

Niveaux de quantification :

NiveauRéduction mémoireQualitéIdéal pour
Q4_0~75%BonneRAM limitée (8Go)
Q4_1~70%MeilleureÉquilibré
Q8_0~50%ÉlevéeAxé sur la qualité
Q8_1~50%La plus élevéeMeilleure qualité

Étape 4 : Adaptateurs LoRA (modèles affinés)

Chargez des modèles avec des adaptateurs LoRA pour des tâches spécialisées :

use adk_agent::LlmAgentBuilder;
use adk_mistralrs::{AdapterConfig, Llm, MistralRsAdapterModel, MistralRsConfig, ModelSource};
use adk_rust::Launcher;
use std::sync::Arc;

#[tokio::main]
async fn main() -> anyhow::Result<()> {
    // Load base model with LoRA adapter
    let config = MistralRsConfig::builder()
        .model_source(ModelSource::huggingface("meta-llama/Llama-3.2-3B-Instruct"))
        .adapter(AdapterConfig::lora("username/my-lora-adapter"))
        .build();

    println!("Loading model with LoRA adapter...");
    let model = MistralRsAdapterModel::new(config).await?;
    println!("Model loaded: {}", model.name());
    println!("Available adapters: {:?}", model.available_adapters());

    let agent = LlmAgentBuilder::new("lora_assistant")
        .instruction("You are a helpful assistant with specialized knowledge.")
        .model(Arc::new(model))
        .build()?;

    Launcher::new(Arc::new(agent)).run().await?;

    Ok(())
}

Échange à chaud des adaptateurs en cours d'exécution :

model.swap_adapter("another-adapter").await?;

Étape 5 : Modèles de vision (compréhension d'images)

Traitez les images avec des modèles vision-langage :

use adk_mistralrs::{Llm, MistralRsConfig, MistralRsVisionModel, ModelSource};

#[tokio::main]
async fn main() -> anyhow::Result<()> {
    let config = MistralRsConfig::builder()
        .model_source(ModelSource::huggingface("microsoft/Phi-3.5-vision-instruct"))
        .build();

    println!("Loading vision model...");
    let model = MistralRsVisionModel::new(config).await?;
    println!("Model loaded: {}", model.name());

    // Analyze an image
    let image = image::open("photo.jpg")?;
    let response = model.generate_with_image("Describe this image.", vec![image]).await?;

    Ok(())
}

Étape 6 : Service multi-modèles

Servez plusieurs modèles à partir d'une seule instance :

use adk_mistralrs::{MistralRsConfig, MistralRsMultiModel, ModelSource};

#[tokio::main]
async fn main() -> anyhow::Result<()> {
    let multi = MistralRsMultiModel::new();

    // Add models
    let phi_config = MistralRsConfig::builder()
        .model_source(ModelSource::huggingface("microsoft/Phi-3.5-mini-instruct"))
        .build();
    multi.add_model("phi", phi_config).await?;

    let gemma_config = MistralRsConfig::builder()
        .model_source(ModelSource::huggingface("google/gemma-2-2b-it"))
        .build();
    multi.add_model("gemma", gemma_config).await?;

    // Set default and route requests
    multi.set_default("phi").await?;
    println!("Available models: {:?}", multi.model_names().await);

    // Route to specific model
    // multi.generate_with_model(Some("gemma"), request, false).await?;

    Ok(())
}

Sources de modèles

HuggingFace Hub (Par défaut)

ModelSource::huggingface("microsoft/Phi-3.5-mini-instruct")

Répertoire local

ModelSource::local("/path/to/model")

GGUF pré-quantifié

ModelSource::gguf("/path/to/model.Q4_K_M.gguf")

Modèles recommandés

ModelSizeRAM NécessaireIdéal pour
microsoft/Phi-3.5-mini-instruct3.8B8GBRapide, usage général
microsoft/Phi-3.5-vision-instruct4.2B10GBVision + texte
Qwen/Qwen2.5-3B-Instruct3B6GBMultilingue, codage
google/gemma-2-2b-it2B4GBLéger
mistralai/Mistral-7B-Instruct-v0.37B16GBHaute qualité

Accélération matérielle

macOS (Apple Silicon)

adk-mistralrs = { git = "https://github.com/zavora-ai/adk-rust", features = ["metal"] }

L'accélération Metal est automatique sur les Macs M1/M2/M3.

NVIDIA GPU

adk-mistralrs = { git = "https://github.com/zavora-ai/adk-rust", features = ["cuda"] }

Nécessite le toolkit CUDA 11.8+.

CPU Uniquement

Aucune fonctionnalité requise - le CPU est la valeur par défaut.


Exemples d'exécution

# Basic usage
cargo run --bin basic

# With quantization
cargo run --bin quantized

# LoRA adapters
cargo run --bin lora

# Multi-model setup
cargo run --bin multimodel

# Vision models
cargo run --bin vision

Dépannage

Mémoire insuffisante

// Enable quantization
.isq(QuantizationLevel::Q4_0)
// Enable paged attention
.paged_attention(true)

Premier chargement lent

  • La première exécution télécharge le modèle (~2-8GB)
  • Les exécutions suivantes utilisent le modèle en cache

Modèle introuvable

  • Vérifiez que l'ID du modèle HuggingFace est correct
  • Assurez-vous d'avoir une connexion internet pour le premier téléchargement

Liens connexes


Précédent: ← Ollama (Local) | Suivant: Function Tools →