Intégration de mistral.rs
Exécutez des LLM localement avec l'inférence native Rust - pas de serveurs externes, pas de clés API.
Qu'est-ce que mistral.rs ?
mistral.rs est un moteur d'inférence Rust haute performance qui exécute les LLM directement sur votre matériel. ADK-Rust l'intègre via la crate adk-mistralrs.
Points forts :
- 🦀 Native Rust - Pas de Python, pas de serveurs externes
- 🔒 Entièrement hors ligne - Pas de clés API ni d'internet requis
- ⚡ Accélération matérielle - Optimisations CUDA, Metal, CPU
- 📦 Quantification - Exécutez de grands modèles sur du matériel limité
- 🔧 LoRA adapters - Support de modèles affinés avec échange à chaud
- 👁️ Vision models - Capacités de compréhension d'images
- 🎯 Multi-model - Servez plusieurs modèles à partir d'une seule instance
Étape 1 : Ajouter les dépendances
Puisque adk-mistralrs dépend de dépôts git, il ne peut pas être publié sur crates.io. Ajoutez-le via git :
[package]
name = "my-local-agent"
version = "0.1.0"
edition = "2024"
[dependencies]
adk-mistralrs = { git = "https://github.com/zavora-ai/adk-rust" }
adk-agent = { git = "https://github.com/zavora-ai/adk-rust" }
adk-rust = { git = "https://github.com/zavora-ai/adk-rust" }
tokio = { version = "1", features = ["full"] }
anyhow = "1.0"
Pour l'accélération matérielle, ajoutez des drapeaux de fonctionnalité :
# macOS with Apple Silicon
adk-mistralrs = { git = "https://github.com/zavora-ai/adk-rust", features = ["metal"] }
# NVIDIA GPU (requires CUDA toolkit)
adk-mistralrs = { git = "https://github.com/zavora-ai/adk-rust", features = ["cuda"] }
Étape 2 : Exemple de base
Chargez un modèle de HuggingFace et exécutez-le localement :
use adk_agent::LlmAgentBuilder;
use adk_mistralrs::{Llm, MistralRsConfig, MistralRsModel, ModelSource};
use adk_rust::Launcher;
use std::sync::Arc;
#[tokio::main]
async fn main() -> anyhow::Result<()> {
// Load model from HuggingFace (downloads on first run)
let config = MistralRsConfig::builder()
.model_source(ModelSource::huggingface("microsoft/Phi-3.5-mini-instruct"))
.build();
println!("Loading model (this may take a while on first run)...");
let model = MistralRsModel::new(config).await?;
println!("Model loaded: {}", model.name());
// Create agent
let agent = LlmAgentBuilder::new("local_assistant")
.description("Local AI assistant powered by mistral.rs")
.instruction("You are a helpful assistant running locally. Be concise.")
.model(Arc::new(model))
.build()?;
// Run interactive chat
Launcher::new(Arc::new(agent)).run().await?;
Ok(())
}
Ce qui se passe :
- La première exécution télécharge le modèle de HuggingFace (~2-8 Go selon le modèle)
- Le modèle est mis en cache localement dans
~/.cache/huggingface/ - Les exécutions suivantes chargent instantanément à partir du cache
Étape 3 : Réduire la mémoire avec la quantification
Les grands modèles nécessitent beaucoup de RAM. Utilisez ISQ (In-Situ Quantization) pour réduire la mémoire :
use adk_agent::LlmAgentBuilder;
use adk_mistralrs::{Llm, MistralRsConfig, MistralRsModel, ModelSource, QuantizationLevel};
use adk_rust::Launcher;
use std::sync::Arc;
#[tokio::main]
async fn main() -> anyhow::Result<()> {
// Load model with 4-bit quantization for reduced memory
let config = MistralRsConfig::builder()
.model_source(ModelSource::huggingface("microsoft/Phi-3.5-mini-instruct"))
.isq(QuantizationLevel::Q4_0) // 4-bit quantization
.paged_attention(true) // Memory-efficient attention
.build();
println!("Loading quantized model...");
let model = MistralRsModel::new(config).await?;
println!("Model loaded: {}", model.name());
let agent = LlmAgentBuilder::new("quantized_assistant")
.instruction("You are a helpful assistant. Be concise.")
.model(Arc::new(model))
.build()?;
Launcher::new(Arc::new(agent)).run().await?;
Ok(())
}
Niveaux de quantification :
| Niveau | Réduction mémoire | Qualité | Idéal pour |
|---|---|---|---|
Q4_0 | ~75% | Bonne | RAM limitée (8Go) |
Q4_1 | ~70% | Meilleure | Équilibré |
Q8_0 | ~50% | Élevée | Axé sur la qualité |
Q8_1 | ~50% | La plus élevée | Meilleure qualité |
Étape 4 : Adaptateurs LoRA (modèles affinés)
Chargez des modèles avec des adaptateurs LoRA pour des tâches spécialisées :
use adk_agent::LlmAgentBuilder;
use adk_mistralrs::{AdapterConfig, Llm, MistralRsAdapterModel, MistralRsConfig, ModelSource};
use adk_rust::Launcher;
use std::sync::Arc;
#[tokio::main]
async fn main() -> anyhow::Result<()> {
// Load base model with LoRA adapter
let config = MistralRsConfig::builder()
.model_source(ModelSource::huggingface("meta-llama/Llama-3.2-3B-Instruct"))
.adapter(AdapterConfig::lora("username/my-lora-adapter"))
.build();
println!("Loading model with LoRA adapter...");
let model = MistralRsAdapterModel::new(config).await?;
println!("Model loaded: {}", model.name());
println!("Available adapters: {:?}", model.available_adapters());
let agent = LlmAgentBuilder::new("lora_assistant")
.instruction("You are a helpful assistant with specialized knowledge.")
.model(Arc::new(model))
.build()?;
Launcher::new(Arc::new(agent)).run().await?;
Ok(())
}
Échange à chaud des adaptateurs en cours d'exécution :
model.swap_adapter("another-adapter").await?;
Étape 5 : Modèles de vision (compréhension d'images)
Traitez les images avec des modèles vision-langage :
use adk_mistralrs::{Llm, MistralRsConfig, MistralRsVisionModel, ModelSource};
#[tokio::main]
async fn main() -> anyhow::Result<()> {
let config = MistralRsConfig::builder()
.model_source(ModelSource::huggingface("microsoft/Phi-3.5-vision-instruct"))
.build();
println!("Loading vision model...");
let model = MistralRsVisionModel::new(config).await?;
println!("Model loaded: {}", model.name());
// Analyze an image
let image = image::open("photo.jpg")?;
let response = model.generate_with_image("Describe this image.", vec![image]).await?;
Ok(())
}
Étape 6 : Service multi-modèles
Servez plusieurs modèles à partir d'une seule instance :
use adk_mistralrs::{MistralRsConfig, MistralRsMultiModel, ModelSource};
#[tokio::main]
async fn main() -> anyhow::Result<()> {
let multi = MistralRsMultiModel::new();
// Add models
let phi_config = MistralRsConfig::builder()
.model_source(ModelSource::huggingface("microsoft/Phi-3.5-mini-instruct"))
.build();
multi.add_model("phi", phi_config).await?;
let gemma_config = MistralRsConfig::builder()
.model_source(ModelSource::huggingface("google/gemma-2-2b-it"))
.build();
multi.add_model("gemma", gemma_config).await?;
// Set default and route requests
multi.set_default("phi").await?;
println!("Available models: {:?}", multi.model_names().await);
// Route to specific model
// multi.generate_with_model(Some("gemma"), request, false).await?;
Ok(())
}
Sources de modèles
HuggingFace Hub (Par défaut)
ModelSource::huggingface("microsoft/Phi-3.5-mini-instruct")
Répertoire local
ModelSource::local("/path/to/model")
GGUF pré-quantifié
ModelSource::gguf("/path/to/model.Q4_K_M.gguf")
Modèles recommandés
| Model | Size | RAM Nécessaire | Idéal pour |
|---|---|---|---|
microsoft/Phi-3.5-mini-instruct | 3.8B | 8GB | Rapide, usage général |
microsoft/Phi-3.5-vision-instruct | 4.2B | 10GB | Vision + texte |
Qwen/Qwen2.5-3B-Instruct | 3B | 6GB | Multilingue, codage |
google/gemma-2-2b-it | 2B | 4GB | Léger |
mistralai/Mistral-7B-Instruct-v0.3 | 7B | 16GB | Haute qualité |
Accélération matérielle
macOS (Apple Silicon)
adk-mistralrs = { git = "https://github.com/zavora-ai/adk-rust", features = ["metal"] }
L'accélération Metal est automatique sur les Macs M1/M2/M3.
NVIDIA GPU
adk-mistralrs = { git = "https://github.com/zavora-ai/adk-rust", features = ["cuda"] }
Nécessite le toolkit CUDA 11.8+.
CPU Uniquement
Aucune fonctionnalité requise - le CPU est la valeur par défaut.
Exemples d'exécution
# Basic usage
cargo run --bin basic
# With quantization
cargo run --bin quantized
# LoRA adapters
cargo run --bin lora
# Multi-model setup
cargo run --bin multimodel
# Vision models
cargo run --bin vision
Dépannage
Mémoire insuffisante
// Enable quantization
.isq(QuantizationLevel::Q4_0)
// Enable paged attention
.paged_attention(true)
Premier chargement lent
- La première exécution télécharge le modèle (~2-8GB)
- Les exécutions suivantes utilisent le modèle en cache
Modèle introuvable
- Vérifiez que l'ID du modèle HuggingFace est correct
- Assurez-vous d'avoir une connexion internet pour le premier téléchargement
Liens connexes
- Fournisseurs de modèles - Fournisseurs de LLM cloud
- Ollama - Serveur de modèles local alternatif
- LlmAgent - Utilisation de modèles avec des agents
Précédent: ← Ollama (Local) | Suivant: Function Tools →