Vibe CLI in der Praxis: Setup mit Ollama und Zed

Was wir aufsetzen

In diesem Artikel richten wir ein vollständiges lokales AI-Coding-Setup ein:

Ollama als Model-Server
Devstral Small 2 als lokales Modell
Vibe CLI im Terminal
Zed Editor mit AI-Integration
Ein Beispielprojekt zur Demonstration

Am Ende läuft alles lokal – kein Code verlässt den Rechner.

Voraussetzungen

macOS mit Apple Silicon (M1/M2/M3/M4) und mindestens 32 GB RAM
Oder: Linux mit NVIDIA GPU (RTX 3090/4090 empfohlen)
Terminal-Grundkenntnisse
Node.js/Python für das Beispielprojekt

Schritt 1: Ollama installieren

Ollama ist der einfachste Weg, LLMs lokal zu betreiben.

macOS

brew install ollama

Oder direkt von ollama.com herunterladen.

Linux

curl -fsSL https://ollama.com/install.sh | sh

Ollama starten

ollama serve

Ollama läuft jetzt als Server auf http://localhost:11434.

Schritt 2: Devstral Small 2 laden

Devstral Small 2 ist Mistrals 24B-Modell, optimiert für Code und Agents.

ollama pull devstral

Modell testen

ollama run devstral "Erkläre kurz, was ein Repository ist."

Wenn eine sinnvolle Antwort kommt, läuft das Modell.

Schritt 3: Vibe CLI installieren

Vibe ist Mistrals Terminal-Agent.

curl -LsSf https://mistral.ai/vibe/install.sh | bash

Oder mit pip:

pip install mistralvibe

Vibe für lokales Modell konfigurieren

Beim ersten Start fragt Vibe nach einem API-Key. Für lokale Nutzung überspringen und stattdessen konfigurieren:

vibe
# Im Vibe-Prompt:
/config

Dann model auf local setzen. Vibe verbindet sich mit localhost:11434 (Ollama-Default).

Schritt 4: Zed Editor einrichten

Zed ist ein schneller, moderner Editor mit nativer AI-Integration.

Zed installieren

brew install --cask zed

Oder von zed.dev herunterladen.

AI-Provider konfigurieren

In Zed: Cmd + , für Settings, dann assistant suchen.

{
  "assistant": {
    "enabled": true,
    "provider": {
      "type": "ollama",
      "url": "http://localhost:11434",
      "model": "devstral"
    }
  }
}

AI-Panel öffnen

Cmd + Shift + A öffnet das AI-Panel. Zed nutzt jetzt Devstral über Ollama.

Schritt 5: Beispielprojekt aufsetzen

Wir erstellen eine kleine API, um Vibe in Aktion zu sehen.

Projekt initialisieren

mkdir vibe-demo && cd vibe-demo
npm init -y
npm install express

Basis-Datei erstellen

// src/index.js
const express = require('express');
const app = express();

app.get('/health', (req, res) => {
  res.json({ status: 'ok' });
});

app.listen(3000, () => {
  console.log('Server running on port 3000');
});

Schritt 6: Vibe im Projekt nutzen

Jetzt wird es interessant. Starte Vibe im Projektordner:

cd vibe-demo
vibe

Beispiel-Prompts

Feature hinzufügen:

Füge einen /users Endpoint hinzu, der eine Liste von Usern zurückgibt. Nutze ein Array als Mock-Datenbank.

Vibe analysiert die bestehende Struktur und erstellt passenden Code.

Tests generieren:

Erstelle Jest-Tests für alle Endpoints. Installiere die nötigen Dependencies.

Vibe installiert Jest, erstellt Testdateien, passt package.json an.

Refactoring:

Extrahiere die Route-Handler in separate Dateien unter src/routes/

Vibe versteht die Projektstruktur und führt das Refactoring durch – inklusive Import-Anpassungen.

Architektur-Beispiel: Von Prompt zu Struktur

Ein realistischeres Szenario. Starte mit einem leeren Projekt:

mkdir api-projekt && cd api-projekt
vibe

Dann:

Erstelle eine Express-API mit folgender Architektur:

src/routes/ für Endpunkte

src/services/ für Business-Logik

src/middleware/ für Auth und Logging

src/config/ für Umgebungsvariablen

tests/ für Jest-Tests

Implementiere einen /auth/login Endpoint mit JWT.

Vibe:

Erstellt die Ordnerstruktur
Installiert Dependencies (express, jsonwebtoken, dotenv, jest)
Implementiert den Login-Flow
Erstellt passende Tests
Generiert eine .env.example

Workflow-Tipps

Dateien explizit referenzieren

@src/services/auth.js refactore die validateToken Funktion

Befehle ausführen lassen

!npm test

Vibe sieht die Ausgabe und kann auf Fehler reagieren.

Kontext begrenzen

Bei großen Projekten:

Fokussiere dich nur auf src/api/ – ignoriere den Rest.

Performance-Tuning

Mehr GPU-Speicher für Ollama

OLLAMA_NUM_GPU=99 ollama serve

Kontext-Länge anpassen

In ~/.ollama/models/devstral/Modelfile:

PARAMETER num_ctx 32768

Größerer Kontext = mehr Dateien gleichzeitig sichtbar, aber mehr RAM-Bedarf.

Troubleshooting

Ollama antwortet nicht

# Prozess prüfen
ps aux | grep ollama

# Neu starten
killall ollama && ollama serve

Vibe findet Ollama nicht

Prüfen, ob Ollama auf dem richtigen Port läuft:

curl http://localhost:11434/api/tags

Modell zu langsam

Quantisierte Version nutzen (Q4_K_M statt Q8)
Andere Anwendungen schließen
Kontext-Länge reduzieren

Einordnung

Das Setup dauert etwa 30-45 Minuten. Danach läuft ein vollständiger AI-Coding-Stack lokal:

Ollama verwaltet das Modell
Devstral liefert die Intelligenz
Vibe CLI agiert im Terminal
Zed integriert alles in den Editor

Kein API-Key, keine Cloud, keine Datenübertragung. Der gesamte Stack gehört dir.