mistral.rsの統合
外部サーバーやAPIキーなしで、ネイティブRust推論によりローカルでLLMを実行します。
mistral.rsとは?
mistral.rs は、LLMをハードウェアで直接実行する高性能なRust推論エンジンです。ADK-Rustは、adk-mistralrs crateを通じてこれを統合します。
主な特徴:
- 🦀 ネイティブ Rust - Pythonや外部サーバーは不要
- 🔒 完全にオフライン - API keysやインターネット接続は不要
- ⚡ ハードウェアアクセラレーション - CUDA、Metal、CPU最適化
- 📦 Quantization - 制限されたハードウェアでも大規模モデルを実行
- 🔧 LoRA adapters - ホットスワップによるファインチューニングされたモデルのサポート
- 👁️ Vision models - 画像理解機能
- 🎯 Multi-model - 1つのインスタンスから複数のモデルを提供
ステップ1:依存関係の追加
adk-mistralrsはgitリポジトリに依存しているため、crates.ioには公開できません。git経由で追加します。
[package]
name = "my-local-agent"
version = "0.1.0"
edition = "2024"
[dependencies]
adk-mistralrs = { git = "https://github.com/zavora-ai/adk-rust" }
adk-agent = { git = "https://github.com/zavora-ai/adk-rust" }
adk-rust = { git = "https://github.com/zavora-ai/adk-rust" }
tokio = { version = "1", features = ["full"] }
anyhow = "1.0"
ハードウェアアクセラレーションには、フィーチャフラグを追加します。
# macOS with Apple Silicon
adk-mistralrs = { git = "https://github.com/zavora-ai/adk-rust", features = ["metal"] }
# NVIDIA GPU (requires CUDA toolkit)
adk-mistralrs = { git = "https://github.com/zavora-ai/adk-rust", features = ["cuda"] }
ステップ2:基本的な例
HuggingFaceからモデルをロードし、ローカルで実行します。
use adk_agent::LlmAgentBuilder;
use adk_mistralrs::{Llm, MistralRsConfig, MistralRsModel, ModelSource};
use adk_rust::Launcher;
use std::sync::Arc;
#[tokio::main]
async fn main() -> anyhow::Result<()> {
// Load model from HuggingFace (downloads on first run)
let config = MistralRsConfig::builder()
.model_source(ModelSource::huggingface("microsoft/Phi-3.5-mini-instruct"))
.build();
println!("Loading model (this may take a while on first run)...");
let model = MistralRsModel::new(config).await?;
println!("Model loaded: {}", model.name());
// Create agent
let agent = LlmAgentBuilder::new("local_assistant")
.description("Local AI assistant powered by mistral.rs")
.instruction("You are a helpful assistant running locally. Be concise.")
.model(Arc::new(model))
.build()?;
// Run interactive chat
Launcher::new(Arc::new(agent)).run().await?;
Ok(())
}
何が起きるか:
- 初回実行時にHuggingFaceからモデルがダウンロードされます(モデルによって約2~8GB)。
- モデルは
~/.cache/huggingface/にローカルでキャッシュされます。 - 以降の実行では、キャッシュから即座にロードされます。
ステップ3: 量子化によるメモリ削減
大規模モデルは多くのRAMを必要とします。ISQ (In-Situ Quantization) を使用してメモリを削減します。
use adk_agent::LlmAgentBuilder;
use adk_mistralrs::{Llm, MistralRsConfig, MistralRsModel, ModelSource, QuantizationLevel};
use adk_rust::Launcher;
use std::sync::Arc;
#[tokio::main]
async fn main() -> anyhow::Result<()> {
// Load model with 4-bit quantization for reduced memory
let config = MistralRsConfig::builder()
.model_source(ModelSource::huggingface("microsoft/Phi-3.5-mini-instruct"))
.isq(QuantizationLevel::Q4_0) // 4-bit quantization
.paged_attention(true) // Memory-efficient attention
.build();
println!("Loading quantized model...");
let model = MistralRsModel::new(config).await?;
println!("Model loaded: {}", model.name());
let agent = LlmAgentBuilder::new("quantized_assistant")
.instruction("You are a helpful assistant. Be concise.")
.model(Arc::new(model))
.build()?;
Launcher::new(Arc::new(agent)).run().await?;
Ok(())
}
量子化レベル:
| レベル | メモリ削減 | 品質 | 最適な用途 |
|---|---|---|---|
Q4_0 | 約75% | 良好 | 限られたRAM (8GB) |
Q4_1 | 約70% | より良好 | バランス重視 |
Q8_0 | 約50% | 高 | 品質重視 |
Q8_1 | 約50% | 最高 | 最高の品質 |
ステップ4: LoRAアダプター (ファインチューニングされたモデル)
特殊なタスクのためにLoRAアダプターを使用してモデルをロードします。
use adk_agent::LlmAgentBuilder;
use adk_mistralrs::{AdapterConfig, Llm, MistralRsAdapterModel, MistralRsConfig, ModelSource};
use adk_rust::Launcher;
use std::sync::Arc;
#[tokio::main]
async fn main() -> anyhow::Result<()> {
// Load base model with LoRA adapter
let config = MistralRsConfig::builder()
.model_source(ModelSource::huggingface("meta-llama/Llama-3.2-3B-Instruct"))
.adapter(AdapterConfig::lora("username/my-lora-adapter"))
.build();
println!("Loading model with LoRA adapter...");
let model = MistralRsAdapterModel::new(config).await?;
println!("Model loaded: {}", model.name());
println!("Available adapters: {:?}", model.available_adapters());
let agent = LlmAgentBuilder::new("lora_assistant")
.instruction("You are a helpful assistant with specialized knowledge.")
.model(Arc::new(model))
.build()?;
Launcher::new(Arc::new(agent)).run().await?;
Ok(())
}
実行時にアダプターをホットスワップする:
model.swap_adapter("another-adapter").await?;
ステップ5: Visionモデル (画像理解)
ビジョン言語モデルで画像を処理します。
use adk_mistralrs::{Llm, MistralRsConfig, MistralRsVisionModel, ModelSource};
#[tokio::main]
async fn main() -> anyhow::Result<()> {
let config = MistralRsConfig::builder()
.model_source(ModelSource::huggingface("microsoft/Phi-3.5-vision-instruct"))
.build();
println!("Loading vision model...");
let model = MistralRsVisionModel::new(config).await?;
println!("Model loaded: {}", model.name());
// Analyze an image
let image = image::open("photo.jpg")?;
let response = model.generate_with_image("Describe this image.", vec![image]).await?;
Ok(())
}
ステップ6:マルチモデルサービング
単一のインスタンスから複数のモデルをサービングします。
use adk_mistralrs::{MistralRsConfig, MistralRsMultiModel, ModelSource};
#[tokio::main]
async fn main() -> anyhow::Result<()> {
let multi = MistralRsMultiModel::new();
// Add models
let phi_config = MistralRsConfig::builder()
.model_source(ModelSource::huggingface("microsoft/Phi-3.5-mini-instruct"))
.build();
multi.add_model("phi", phi_config).await?;
let gemma_config = MistralRsConfig::builder()
.model_source(ModelSource::huggingface("google/gemma-2-2b-it"))
.build();
multi.add_model("gemma", gemma_config).await?;
// Set default and route requests
multi.set_default("phi").await?;
println!("Available models: {:?}", multi.model_names().await);
// Route to specific model
// multi.generate_with_model(Some("gemma"), request, false).await?;
Ok(())
}
モデルソース
HuggingFace Hub (デフォルト)
ModelSource::huggingface("microsoft/Phi-3.5-mini-instruct")
ローカルディレクトリ
ModelSource::local("/path/to/model")
事前量子化されたGGUF
ModelSource::gguf("/path/to/model.Q4_K_M.gguf")
推奨モデル
| Model | Size | RAM Needed | 最適な用途 |
|---|---|---|---|
microsoft/Phi-3.5-mini-instruct | 3.8B | 8GB | 高速、汎用 |
microsoft/Phi-3.5-vision-instruct | 4.2B | 10GB | ビジョン + テキスト |
Qwen/Qwen2.5-3B-Instruct | 3B | 6GB | 多言語、コーディング |
google/gemma-2-2b-it | 2B | 4GB | 軽量 |
mistralai/Mistral-7B-Instruct-v0.3 | 7B | 16GB | 高品質 |
ハードウェアアクセラレーション
macOS (Apple Silicon)
adk-mistralrs = { git = "https://github.com/zavora-ai/adk-rust", features = ["metal"] }
M1/M2/M3 MacではMetalアクセラレーションが自動的に行われます。
NVIDIA GPU
adk-mistralrs = { git = "https://github.com/zavora-ai/adk-rust", features = ["cuda"] }
CUDA toolkit 11.8+が必要です。
CPUのみ
機能は不要です - CPUがデフォルトです。
実行例
# Basic usage
cargo run --bin basic
# With quantization
cargo run --bin quantized
# LoRA adapters
cargo run --bin lora
# Multi-model setup
cargo run --bin multimodel
# Vision models
cargo run --bin vision
トラブルシューティング
メモリ不足
// Enable quantization
.isq(QuantizationLevel::Q4_0)
// Enable paged attention
.paged_attention(true)
初回ロードが遅い
- 初回実行時にモデルをダウンロードします (~2-8GB)
- 以降の実行ではキャッシュされたモデルを使用します
モデルが見つからない
- HuggingFaceのモデルIDが正しいか確認してください
- 初回ダウンロードのためにインターネット接続があることを確認してください
関連
- Model Providers - クラウドLLMプロバイダー
- Ollama - 代替のローカルモデルサーバー
- LlmAgent - エージェントでのモデルの使用
前へ: ← Ollama (ローカル) | 次へ: Function Tools →