Zum Inhalt springen
CASOON

Mistral Vibe 2.0 – Europas CLI-Agent im Praxistest

Was Vibe 2.0 kann, was es kostet und wo Claude Code, Copilot und Cursor stehen

12 Minuten
Mistral Vibe 2.0 – Europas CLI-Agent im Praxistest
#Mistral #Vibe CLI #Devstral 2 #Claude Code
SerieMistral & Vibe CLI
Teil 6 von 16

Niemand soll sagen, es gibt keine europäische Alternative.

Seit Ende Januar 2026 ist Mistral Vibe 2.0 allgemein verfügbar – angetrieben von Devstral 2, unter Apache 2.0 lizenziert, selbst hostbar, DSGVO-kompatibel. Ein vollständiger CLI-Coding-Agent aus Paris, der sich direkt mit Claude Code, GitHub Copilot und Cursor messen lässt.

Ich nutze Vibe seit der ersten Version. Nicht exklusiv – Claude Code ist nach wie vor mein primäres Werkzeug. Aber genau das macht den Vergleich ehrlich: Wer mit beiden Systemen arbeitet, sieht, wo der europäische Herausforderer überzeugt, wo er noch aufholen muss – und warum er trotzdem strategisch relevant ist.

Was sich mit Vibe 2.0 geändert hat

Die erste Version war ein vielversprechender Prototyp. Vibe 2.0 ist ein anderes Produkt.

Die wichtigsten Neuerungen: Custom Subagents für spezialisierte Aufgaben wie Pull-Request-Reviews oder Testgenerierung. MCP-Integration (Model Context Protocol) für die Anbindung externer Tools. Eine überarbeitete Terminal-Oberfläche mit Autocompletion, persistenter History und Slash-Commands.

Was gleich geblieben ist: Das Grundprinzip. Vibe arbeitet direkt im Terminal, versteht den Kontext des gesamten Repositories und manipuliert Dateien per natürlicher Sprache. Jede Änderung wird als Diff-Preview angezeigt, bevor sie angewendet wird. Berechtigungen lassen sich pro Tool konfigurieren.

Die Benchmark-Realität

Zahlen auf dem Papier, aber sie ordnen das Feld:

SWE-bench Verified – der aktuell relevanteste Benchmark für reale Coding-Aufgaben:

  • Claude Code (Sonnet 4.5): 80,9%
  • GPT-5 Modelle: 74,9%
  • Devstral 2: 72,2%
  • Devstral Small 2 (24B Parameter): 68,0%
  • GitHub Copilot: 56%
  • Cursor: 52%

Devstral 2 liegt damit zwischen GPT-5 und Claude – und deutlich vor Copilot und Cursor. Das allein ist bemerkenswert für ein Open-Source-Modell. Noch bemerkenswerter: Devstral Small 2 mit nur 24 Milliarden Parametern erreicht 68% und lässt sich auf Consumer-Hardware lokal betreiben.

Kosten – der eigentliche Gamechanger

Hier wird es für Unternehmen und Freelancer konkret interessant.

API-Preise pro Million Token:

  • Devstral 2: 0,37 € Input / 1,85 € Output
  • Claude Sonnet 4.5: deutlich höher – Mistral spricht von Faktor 7

Abonnements:

  • Mistral Le Chat Pro: 13,99 €/Monat (inkl. Vibe CLI und Devstral 2)
  • Claude Code: nutzungsbasiert über Anthropic API
  • GitHub Copilot: 9 €/Monat (Individual) / 18 €/Monat (Business)
  • Cursor: 18 €/Monat

Der Preisunterschied auf API-Ebene ist erheblich. Wer Coding-Agents im Team einsetzt oder automatisierte Pipelines baut, bei denen Tokenverbrauch sich summiert, kommt mit Devstral 2 auf einen Bruchteil der Kosten.

In der Praxis: Wo Vibe überzeugt

Für alltägliche Entwicklungsaufgaben funktioniert Vibe 2.0 solide: Tests schreiben, Funktionen refactoren, Linter-Fehler beheben, Boilerplate generieren. Die Subagent-Architektur ist durchdacht – man kann spezialisierte Agenten für wiederkehrende Aufgaben konfigurieren und sie aus dem Hauptagenten heraus aufrufen.

Die MCP-Integration öffnet Vibe für externe Datenquellen und Tools. Das ist relevant für Teams, die ihre eigene Toolchain anbinden wollen, ohne auf proprietäre Plugins angewiesen zu sein.

Wo es wirklich Spaß macht: kleinere bis mittlere Projekte, bei denen man schnell iterieren will. Der Tokenverbrauch bleibt überschaubar, die Antworten kommen zügig, und das Berechtigungssystem gibt einem die Kontrolle darüber, was der Agent tun darf.

Wo Vibe an Grenzen stößt

Bei komplexen Multi-File-Refactorings über ein Dutzend Dateien verliert Vibe gelegentlich den Überblick. Abhängigkeiten werden übersehen, Änderungen brechen den Build. Claude Code ist hier spürbar zuverlässiger – die Differenz von 72% zu 81% auf SWE-bench schlägt sich in der Praxis nieder.

Auch die Infrastruktur hat Nachholbedarf. Rate-Limiting-Probleme nach dem GA-Launch, gelegentliche Freezes ohne Fehlermeldung, und unter Windows ist die Terminal-Darstellung noch fragil. Auf macOS und Linux läuft es stabiler, aber auch hier gibt es Rendering-Glitches in manchen Terminal-Emulatoren.

Das sind keine Dealbreaker. Aber es sind Zeichen dafür, dass Vibe 2.0 trotz General Availability noch ein Produkt im Wachstum ist.

Das europäische Argument

Für mich persönlich wiegt ein Aspekt schwerer als Benchmarks: Datensouveränität.

Devstral 2 ist Open Source unter Apache 2.0. Das bedeutet: selbst hosten, auf eigener Infrastruktur betreiben, kein Datenfluss an US-Anbieter. Für Unternehmen, die dem EU AI Act und der DSGVO unterliegen, ist das kein Nice-to-have – es ist eine strategische Option, die kein US-Anbieter in dieser Form bietet.

Devstral Small 2 mit seinen 24 Milliarden Parametern läuft auf einem Mac Studio oder vergleichbarer Hardware. Das ist keine Spielerei – das ist ein vollständiger Coding-Agent, der das Büro nie verlässt.

Mistral bietet darüber hinaus Fine-Tuning auf internen Codebasen und domänenspezifischen Sprachen an. Für Unternehmen mit proprietären Frameworks oder Legacy-Systemen ist das ein realer Vorteil gegenüber generischen Cloud-Modellen.

Die ehrliche Einordnung

Vibe 2.0 ist nicht der beste Coding-Agent auf dem Markt. Claude Code ist leistungsfähiger, zuverlässiger bei komplexen Aufgaben und in der täglichen Arbeit für mich nach wie vor das primäre Werkzeug.

Aber Vibe 2.0 ist der überzeugendste Open-Source-Herausforderer. Und das zu einem Zeitpunkt, an dem die Abhängigkeit von einzelnen KI-Anbietern ein ernstes strategisches Risiko darstellt.

Die Entscheidung zwischen den Tools ist deshalb keine reine Leistungsfrage. Es ist eine Frage der Architektur: Will ich ein geschlossenes System, das heute die besten Ergebnisse liefert? Oder ein offenes System, das ich kontrollieren, anpassen und auf meiner Infrastruktur betreiben kann – mit einem Leistungsniveau, das für die meisten Aufgaben ausreicht?

Meine Antwort ist pragmatisch: beides. Claude Code für die anspruchsvollen Aufgaben. Vibe für alles, was lokal bleiben soll oder wo die Kostenstruktur den Ausschlag gibt. Und die Richtung ist klar – mit jedem Update wird der Abstand kleiner.


Quellen