Schritt-für-Schritt-Anleitung für lokale AI-Agents im Entwickleralltag
SerieMistral & Vibe CLI
Teil 3 von 16
Was wir aufsetzen
In diesem Artikel richten wir ein vollständiges lokales AI-Coding-Setup ein:
- Ollama als Model-Server
- Devstral Small 2 als lokales Modell
- Vibe CLI im Terminal
- Zed Editor mit AI-Integration
- Ein Beispielprojekt zur Demonstration
Am Ende läuft alles lokal – kein Code verlässt den Rechner.
Voraussetzungen
- macOS mit Apple Silicon (M1/M2/M3/M4) und mindestens 32 GB RAM
- Oder: Linux mit NVIDIA GPU (RTX 3090/4090 empfohlen)
- Terminal-Grundkenntnisse
- Node.js/Python für das Beispielprojekt
Schritt 1: Ollama installieren
Ollama ist der einfachste Weg, LLMs lokal zu betreiben.
macOS
brew install ollama
Oder direkt von ollama.com herunterladen.
Linux
curl -fsSL https://ollama.com/install.sh | sh
Ollama starten
ollama serve
Ollama läuft jetzt als Server auf http://localhost:11434.
Schritt 2: Devstral Small 2 laden
Devstral Small 2 ist Mistrals 24B-Modell, optimiert für Code und Agents.
ollama pull devstral
Modell testen
ollama run devstral "Erkläre kurz, was ein Repository ist."
Wenn eine sinnvolle Antwort kommt, läuft das Modell.
Schritt 3: Vibe CLI installieren
Vibe ist Mistrals Terminal-Agent.
curl -LsSf https://mistral.ai/vibe/install.sh | bash
Oder mit pip:
pip install mistralvibe
Vibe für lokales Modell konfigurieren
Beim ersten Start fragt Vibe nach einem API-Key. Für lokale Nutzung überspringen und stattdessen konfigurieren:
vibe
# Im Vibe-Prompt:
/config
Dann model auf local setzen. Vibe verbindet sich mit localhost:11434 (Ollama-Default).
Schritt 4: Zed Editor einrichten
Zed ist ein schneller, moderner Editor mit nativer AI-Integration.
Zed installieren
brew install --cask zed
Oder von zed.dev herunterladen.
AI-Provider konfigurieren
In Zed: Cmd + , für Settings, dann assistant suchen.
{
"assistant": {
"enabled": true,
"provider": {
"type": "ollama",
"url": "http://localhost:11434",
"model": "devstral"
}
}
}
AI-Panel öffnen
Cmd + Shift + A öffnet das AI-Panel. Zed nutzt jetzt Devstral über Ollama.
Schritt 5: Beispielprojekt aufsetzen
Wir erstellen eine kleine API, um Vibe in Aktion zu sehen.
Projekt initialisieren
mkdir vibe-demo && cd vibe-demo
npm init -y
npm install express
Basis-Datei erstellen
// src/index.js
const express = require('express');
const app = express();
app.get('/health', (req, res) => {
res.json({ status: 'ok' });
});
app.listen(3000, () => {
console.log('Server running on port 3000');
});
Schritt 6: Vibe im Projekt nutzen
Jetzt wird es interessant. Starte Vibe im Projektordner:
cd vibe-demo
vibe
Beispiel-Prompts
Feature hinzufügen:
Füge einen /users Endpoint hinzu, der eine Liste von Usern zurückgibt. Nutze ein Array als Mock-Datenbank.
Vibe analysiert die bestehende Struktur und erstellt passenden Code.
Tests generieren:
Erstelle Jest-Tests für alle Endpoints. Installiere die nötigen Dependencies.
Vibe installiert Jest, erstellt Testdateien, passt package.json an.
Refactoring:
Extrahiere die Route-Handler in separate Dateien unter src/routes/
Vibe versteht die Projektstruktur und führt das Refactoring durch – inklusive Import-Anpassungen.
Architektur-Beispiel: Von Prompt zu Struktur
Ein realistischeres Szenario. Starte mit einem leeren Projekt:
mkdir api-projekt && cd api-projekt
vibe
Dann:
Erstelle eine Express-API mit folgender Architektur:
- src/routes/ für Endpunkte
- src/services/ für Business-Logik
- src/middleware/ für Auth und Logging
- src/config/ für Umgebungsvariablen
- tests/ für Jest-Tests
Implementiere einen /auth/login Endpoint mit JWT.
Vibe:
- Erstellt die Ordnerstruktur
- Installiert Dependencies (express, jsonwebtoken, dotenv, jest)
- Implementiert den Login-Flow
- Erstellt passende Tests
- Generiert eine .env.example
Workflow-Tipps
Dateien explizit referenzieren
@src/services/auth.js refactore die validateToken Funktion
Befehle ausführen lassen
!npm test
Vibe sieht die Ausgabe und kann auf Fehler reagieren.
Kontext begrenzen
Bei großen Projekten:
Fokussiere dich nur auf src/api/ – ignoriere den Rest.
Performance-Tuning
Mehr GPU-Speicher für Ollama
OLLAMA_NUM_GPU=99 ollama serve
Kontext-Länge anpassen
In ~/.ollama/models/devstral/Modelfile:
PARAMETER num_ctx 32768
Größerer Kontext = mehr Dateien gleichzeitig sichtbar, aber mehr RAM-Bedarf.
Troubleshooting
Ollama antwortet nicht
# Prozess prüfen
ps aux | grep ollama
# Neu starten
killall ollama && ollama serve
Vibe findet Ollama nicht
Prüfen, ob Ollama auf dem richtigen Port läuft:
curl http://localhost:11434/api/tags
Modell zu langsam
- Quantisierte Version nutzen (Q4_K_M statt Q8)
- Andere Anwendungen schließen
- Kontext-Länge reduzieren
Einordnung
Das Setup dauert etwa 30-45 Minuten. Danach läuft ein vollständiger AI-Coding-Stack lokal:
- Ollama verwaltet das Modell
- Devstral liefert die Intelligenz
- Vibe CLI agiert im Terminal
- Zed integriert alles in den Editor
Kein API-Key, keine Cloud, keine Datenübertragung. Der gesamte Stack gehört dir.