Modelle verstehen: Large, Medium, Devstral, OCR – was ist was?

Wer zum ersten Mal auf die Mistral-Modellseite schaut, sieht: Large, Medium, Small, Ministral, Codestral, Devstral, Pixtral, OCR. Acht Modelle, unterschiedliche Namen, kaum erklärter Zusammenhang.

Dieser Artikel sortiert das. Nicht durch vollständige Dokumentation – dafür gibt es la plateforme – sondern durch eine klare Antwort auf die Frage: Welches Modell für welche Aufgabe?

Die Modell-Familien

Mistral organisiert seine Modelle grob in drei Gruppen: Allzweckmodelle, Spezialmodelle und Edge-Modelle.

Alle Preise sind API-Preise in EUR (ca., Umrechnung aus USD; Stand März 2026). Open-Weight-Modelle können selbst gehostet werden – dann entfallen die API-Kosten, dafür entstehen Infrastrukturkosten.

Modell	Stärke	Preis Input / Output per 1M Token	Open-Weight
Mistral Large	Komplexes Reasoning, Multilingual	~€0,46 / €1,38	Ja (Large 2)
Mistral Medium	Ausgewogene Allzweck-Performance	~€0,37 / €1,84 ¹	Nein
Mistral Small	Schnell, günstig, einfache Aufgaben	~€0,03 / €0,10	Ja (Small 3)
Ministral 3B / 8B	On-Device, Edge-Deployment	~€0,04 / €0,04	Ja
Codestral	Code-Vervollständigung, Fill-in-Middle	~€0,28 / €0,83	Nein
Devstral Small	Agentisches Coding, komplexe Repos	~€0,06 / €0,26	Ja
Pixtral	Vision, Bild-Verständnis	~€0,46 / €1,38	Ja (12B)
Mistral OCR	Dokumente, PDFs, strukturierte Extraktion	pro Seite / Dokument	Nein
Voxtral TTS	Text-to-Speech, Voice Cloning	~€0,015 / 1k Zeichen	Ja (4B)

¹ Medium kostet beim Output mehr als Large — kein Fehler, sondern Mistrals Preisstrategie: Large 3 wurde Ende 2025 stark verbilligt, Medium 3 nicht. Wer viele Output-Token produziert, fährt mit Large günstiger.

Mistral Large – das Flaggschiff

Mistral Large ist das leistungsstärkste Allzweckmodell. Es eignet sich für Aufgaben, bei denen Qualität wichtiger ist als Geschwindigkeit oder Kosten: komplexes mehrstufiges Reasoning, juristische oder medizinische Textanalyse, anspruchsvolle mehrsprachige Aufgaben.

Mit einem Kontextfenster von 128k Token verarbeitet es auch lange Dokumente zuverlässig. Mistral Large 2 ist als Open-Weight-Modell verfügbar – wer es lokal oder auf eigener Infrastruktur betreiben will, kann das tun.

Wann sinnvoll: Wenn Qualität zählt und Kosten zweitrangig sind. Produktionsaufgaben mit hohen Anforderungen an Präzision.

Wann nicht: Für einfache Klassifikationen, kurze Zusammenfassungen oder hochvolumige Aufgaben – da ist es schlicht zu teuer.

Mistral Medium – die Mitte

Mistral Medium schließt die Lücke zwischen Large und Small. Es ist schneller und günstiger als Large, aber deutlich fähiger als Small bei komplexeren Aufgaben.

Typische Anwendungsfälle: Content-Generierung in guter Qualität, Kundenservice-Automatisierung, mittlere Analyseaufgaben. Medium ist nicht als Open-Weight verfügbar – wer es nutzen will, braucht die API.

Wann sinnvoll: Wenn Large zu teuer ist, Small aber zu schwach. Der Sweet Spot für viele Produktions-Setups.

Mistral Small – schnell und günstig

Mistral Small ist für Aufgaben gedacht, bei denen Latenz und Kosten entscheidend sind: Klassifikationen, einfache Extraktion, kurze Zusammenfassungen, Routing-Logik in Agenten-Pipelines. Small 3 ist als Open-Weight-Modell verfügbar.

Die Qualität ist für einfache Aufgaben gut. Bei komplexem Reasoning oder langen Dokumenten stößt es schnell an Grenzen.

Wann sinnvoll: Hochvolumige, einfache Aufgaben. Als erster Filter in einer Pipeline, der nur weiterkomplex leitet. Überall, wo Latenz kritisch ist.

Ministral 3B und 8B – für die Edge

Die Ministral-Modelle sind auf minimalen Ressourcenverbrauch ausgelegt. 3B und 8B laufen auf Consumer-Hardware, in mobilen Apps oder eingebetteten Systemen – ohne Cloud-Verbindung.

Wann sinnvoll: On-Device-Inferenz, Datenschutz-sensitive Umgebungen ohne Internetzugang, IoT-nahe Anwendungen.

Codestral – Fill-in-Middle und Code-Completion

Codestral ist auf Code-Vervollständigung optimiert. Es unterstützt „Fill-in-Middle” (FIM) – eine Technik, bei der das Modell nicht nur vorwärts generiert, sondern auch vorhandenen Code an einer Lücke vervollständigt. Das macht es besonders gut für IDE-Integrationen.

Codestral ist schnell und für häufige Code-Completion-Aufgaben günstiger als ein Allzweckmodell wie Large.

Wann sinnvoll: IDE-Integration (VS Code, JetBrains), automatische Code-Vervollständigung in Entwickler-Tools.

Devstral – agentisches Coding

Devstral ist das neuere Code-Modell und geht einen Schritt weiter als Codestral: Es ist auf agenthaftes Arbeiten in komplexen Codebasen ausgelegt. Statt einzelne Zeilen zu vervollständigen, versteht es Repos, navigiert durch Dateien und löst Coding-Aufgaben in mehreren Schritten.

Es ist als Open-Weight-Modell verfügbar und lässt sich mit Tools wie Continue, Cursor oder eigenen Agenten-Frameworks verbinden. In Benchmarks wie SWE-Bench – dem Standard für agenthaftes Coding – erreicht Devstral Ergebnisse auf dem Niveau deutlich größerer proprietärer Modelle.

Wann sinnvoll: Agentisches Coding, Code-Review über mehrere Dateien, automatisierte Refactoring-Aufgaben, CI-Pipeline-Integration.

Wann nicht: Einfache Code-Completion in der IDE – dafür ist Codestral effizienter.

Pixtral – Bild-Verständnis

Pixtral bringt Vision-Fähigkeiten: Es verarbeitet Bilder zusammen mit Text. Pixtral 12B ist als Open-Weight verfügbar, Pixtral Large ist proprietär und leistungsstärker.

Anwendungsfälle: Bild-Beschreibungen generieren, Screenshots analysieren, visuelle Fragen beantworten, Diagramme auswerten.

Wann sinnvoll: Wenn Bild-Input verarbeitet werden muss. Nicht für reine Text-Aufgaben.

Mistral OCR – Dokumente verstehen

Mistral OCR ist kein Sprachmodell im klassischen Sinne, sondern ein Dokumentenverarbeitungsmodell. Es extrahiert Text und Struktur aus PDFs, eingescannten Dokumenten und Bildern – mit besonderem Fokus auf Layout-Erhalt: Tabellen, Überschriften, Listen bleiben als solche erkennbar.

Das ist relevant, weil klassische OCR-Tools zwar Text extrahieren, aber die Struktur zerstören. Mistral OCR liefert Markdown-Output, der direkt in RAG-Pipelines oder Dokumentenverarbeitung weitergenutzt werden kann.

Wann sinnvoll: Verarbeitung von Rechnungen, Verträgen, technischen Dokumenten, gescannten Akten. Als Eingabestufe vor einem LLM, das auf dem extrahierten Inhalt arbeitet.

Anwendungsfälle in der Praxis – welches Modell für welches Szenario

Die „Wann sinnvoll”-Hinweise bei jedem Modell sind bewusst kurz. Hier folgt die konkrete Einordnung für typische Szenarien in Unternehmen und Entwicklungsprojekten.

Dokumentenverarbeitung und Analyse (Cloud)

Ein Versicherungsunternehmen verarbeitet täglich hunderte Schadensberichte als PDFs. Der sinnvolle Stack: Mistral OCR extrahiert Text und Tabellenstruktur aus den Dokumenten, Mistral Small klassifiziert Schadensart und Dringlichkeit, Mistral Large analysiert die komplexen Fälle mit mehrstufigem Reasoning. Small übernimmt den Großteil des Volumens, Large nur was es braucht. Das senkt die Kosten dramatisch.

Kundenservice-Automatisierung (Cloud)

Intent-Klassifikation („Ich möchte kündigen” vs. „Ich habe eine Frage zur Rechnung”) ist eine einfache Aufgabe – Mistral Small reicht. Die eigentliche Antwortgenerierung mit Kontext aus dem CRM braucht mehr Präzision: Mistral Medium. Eskalation zu einem komplexen Vertragsthema: Mistral Large. Diese dreistufige Pipeline reduziert Kosten gegenüber einem Single-Model-Ansatz um 60–80 %.

RAG-System (Cloud oder Self-Hosted)

Bei einem Retrieval-Augmented-Generation-System übernimmt Mistral Small das Query-Routing und die Einschätzung, ob überhaupt abgerufen werden muss. Das eigentliche Reasoning über die gefundenen Dokumente macht Large oder Medium. Wer Datenschutz-Anforderungen hat, kann Small lokal hosten und Large über die API mit anonymisierten Chunks aufrufen.

Coding-Workflow (Cloud oder Lokal)

In der IDE ist Codestral die schnellste Option für Completion. Für größere Aufgaben – eine Funktion refactoren, eine neue Feature-Branch aufsetzen, ein Bug in einem fremden Repo finden – übernimmt Devstral als Agent. Devstral lässt sich in Cursor, Continue oder direkte API-Aufrufe einbinden. In einer CI-Pipeline (z. B. automatischer Code-Review bei Pull Requests) läuft Devstral über die API oder als selbst gehostete Instanz.

Content-Produktion in großem Maßstab (Cloud)

Newsletter, Produktbeschreibungen, SEO-Texte in hohem Volumen: Mistral Small für Entwürfe, Mistral Medium für redaktionelle Überarbeitung, Mistral Large für die finale Qualitätskontrolle besonders wichtiger Inhalte. Voxtral TTS wandelt fertigen Text in Audioversionen um – für Barrierefreiheit oder Podcast-Formate, direkt aus derselben Pipeline.

Voice-Applikation (Cloud)

Ein Kundenservice-Sprachassistent: Voxtral für Transkription (Speech-to-Text), Mistral Small für Intent-Erkennung, Mistral Medium für Antwortgenerierung, Voxtral TTS für die Sprachausgabe. Alle vier Komponenten kommen von demselben Anbieter – weniger Integrationskomplexität, einheitliche Datenschutzbedingungen.

Lokal vs. Cloud – was ist wirklich möglich?

Das ist der Punkt, der am häufigsten falsch eingeschätzt wird – in beide Richtungen. Manche versuchen, Large lokal zu hosten und scheitern an der Hardware. Andere gehen reflexartig in die Cloud, obwohl ihre Aufgabe problemlos lokal laufen würde.

Was lokal realistisch funktioniert

Ministral 3B läuft auf jedem modernen Laptop mit 8 GB RAM. Für einfache Klassifikationen, Zusammenfassungen oder eingebettete Assistenten in Desktopanwendungen ist das ausreichend.

Ministral 8B und Mistral Small 3 (22B quantisiert) laufen auf einem MacBook Pro M3 Pro/Max (16–36 GB) oder einer Gaming-GPU mit 16–24 GB VRAM. Qualität ist gut für Alltagsaufgaben – Schreiben, Coding, kurze Analysen. Tools wie Ollama oder LM Studio machen das Setup auf Consumer-Hardware zum Zehnminuten-Projekt.

Devstral Small läuft lokal auf vergleichbarer Hardware und ist dabei stark genug für echte Coding-Workflows. Das ist der wichtigste Punkt für Entwickler: Lokales agentisches Coding auf einem MacBook ist heute kein Experiment mehr.

Was lokal nicht funktioniert – oder nur schlecht

Mistral Large (123B Parameter) braucht entweder einen Mac Studio M2 Ultra mit 192 GB Unified Memory, zwei A100-GPUs mit je 80 GB oder eine vergleichbare Server-GPU-Konfiguration. Das ist Enterprise-Hardware. Wer Large lokal hosten will, braucht entweder ein dediziertes Angebot wie Together AI, Replicate oder eine eigene GPU-Infrastruktur – nicht den eigenen Rechner.

Mistral Medium, Codestral und Mistral OCR sind proprietär und nicht als Open-Weight verfügbar. Lokal betreiben ist keine Option, unabhängig von der Hardware.

Self-Hosted auf eigener Server-Infrastruktur

Das ist die dritte Option, die oft vergessen wird: nicht lokal auf dem Laptop, nicht in Mistrals Cloud, sondern auf eigenen Servern in der eigenen Cloud-Umgebung (AWS, Azure, Hetzner, eigenes Rechenzentrum). Das ist für Open-Weight-Modelle vollständig möglich und sinnvoll, wenn DSGVO-Anforderungen oder interne Datenschutzrichtlinien eine Weitergabe von Daten an externe APIs ausschließen.

Der Aufwand ist real: Server provisionieren, Inferenz-Framework einrichten (vLLM empfiehlt sich), Monitoring, Modell-Updates. Für Teams mit DevOps-Kapazität ist das lösbar; für kleinere Projekte überwiegt der Verwaltungsaufwand.

Die Entscheidungsregel

Cloud-API zuerst, wenn: Einfachheit wichtiger ist als Datenschutz, das Volumen noch unbekannt ist, keine GPU-Infrastruktur vorhanden ist, oder proprietäre Modelle (Medium, OCR) benötigt werden.

Lokal oder Self-Hosted, wenn: Sensible Daten verarbeitet werden, die die eigene Infrastruktur nicht verlassen dürfen, das Volumen so hoch ist, dass API-Kosten die Infrastrukturkosten übersteigen, oder volle Kontrolle über Modellversion und Verfügbarkeit nötig ist.

Open-Weight vs. proprietär: was das konkret bedeutet

Open-Weight bedeutet: Die Modellgewichte sind öffentlich zugänglich und können lokal oder auf eigener Infrastruktur betrieben werden. Das hat konkrete Konsequenzen:

Datenschutz-sensitive Daten verlassen nicht die eigene Infrastruktur. Die Betriebskosten sind bei hohem Volumen oft günstiger als API-Preise. Dafür entstehen eigene Infrastrukturkosten – Hardware, Betrieb, Updates.

Proprietäre Modelle (Medium, Codestral, OCR) sind nur über die Mistral-API nutzbar. Einfacher zu integrieren, keine Infrastruktur nötig, aber Abhängigkeit vom Anbieter.

Mistral ist hier klarer als OpenAI: Der Großteil der Modelle ist als Open-Weight verfügbar. Das ist ein strategischer Unterschied – und ein Grund, warum Mistral in europäischen Unternehmenskontexten besonders relevant ist.

Preise im Vergleich: Mistral vs. OpenAI

Die Tabelle oben wird erst aussagekräftig, wenn man sie gegen OpenAI hält. Zum Vergleich die aktuellen GPT-4o-Preise:

Modell	Input per 1M Token	Output per 1M Token
GPT-4o	~€2,30	~€9,20
GPT-4o-mini	~€0,14	~€0,55
Mistral Large	~€0,46	~€1,38
Mistral Small	~€0,03	~€0,10

Mistral Large kostet damit etwa 5× weniger als GPT-4o bei vergleichbarer Qualität für viele Aufgaben. Mistral Small ist nochmals deutlich günstiger als GPT-4o-mini.

Wichtiger Kontext: OpenAI bietet auch Batch-Verarbeitung (50 % Rabatt) und Prompt-Caching an. Für sehr hohe Volumen lohnt sich ein genauer Kostenvergleich auf Basis eigener Nutzungsdaten. Mistral bietet ähnliche Optimierungen an.

Was der Preisvergleich nicht abbildet: ChatGPT Plus ist ein Pauschalpreis (€20/Monat) für die Web-Oberfläche – kein API-Zugang. API-Nutzung bei OpenAI wird immer nach Token abgerechnet, genau wie bei Mistral.

Typische Fehler bei der Modellwahl

Large für alles nehmen. Naheliegend, aber teuer. Für einfache Klassifikationen oder kurze Texte ist Small oder Medium meist ausreichend.

Codestral und Devstral verwechseln. Codestral ist für Code-Completion optimiert, Devstral für agenthaftes Arbeiten in Repos. Beide sind Code-Modelle – aber für unterschiedliche Aufgaben.

OCR als Sprachmodell einsetzen. Mistral OCR ist kein Chat-Modell. Es extrahiert Dokumente – das Ergebnis wird dann an ein Sprachmodell übergeben, nicht direkt als Gesprächspartner genutzt.

Open-Weight-Kosten unterschätzen. Lokal zu hosten klingt kostenlos. Hardware, Betrieb und Latenz auf Consumer-Hardware sind aber reale Faktoren – besonders bei größeren Modellen wie Large 2.

Voxtral TTS – Text-to-Speech

Voxtral TTS ist Mistrals erstes Text-to-Speech-Modell, veröffentlicht am 26. März 2026. Es ist mit 4B Parametern kompakt, aber konkurrenzfähig: In menschlichen Evaluierungen übertrifft es ElevenLabs Flash v2.5 bei Natürlichkeit und liegt auf Augenhöhe mit ElevenLabs v3.

Das Besondere: Voice Cloning aus nur 3 Sekunden Referenzaudio. Das Modell kopiert dabei nicht nur die Stimme, sondern auch Akzent, Intonation und sprachliche Eigenheiten. Latenz liegt bei 70 ms für typische Eingaben (10-Sekunden-Sample, 500 Zeichen).

Unterstützte Sprachen: Englisch, Französisch, Deutsch, Spanisch, Niederländisch, Portugiesisch, Italienisch, Hindi und Arabisch.

Voxtral TTS ist als Open-Weight-Modell auf Hugging Face verfügbar (CC BY-NC 4.0) und über die Mistral-API nutzbar — $0,016 pro 1.000 Zeichen.

Wann sinnvoll: Sprachausgabe in Anwendungen, Voice Assistants, Barrierefreiheit, mehrsprachige Inhalte. Wer bisher ElevenLabs nutzt, sollte Voxtral TTS als Alternative testen — bei vergleichbarer Qualität zu niedrigerem Preis und mit Open-Weight-Option.

Einordnung

Mistral hat in kurzer Zeit ein breites Modell-Portfolio aufgebaut – von Edge-Modellen für eingebettete Systeme bis zum Flaggschiff für komplexe Unternehmensaufgaben. Die Entscheidung ist keine Qualitätsfrage, sondern eine Abwägung zwischen Aufgabe, Kosten und Infrastruktur.

Für die meisten Entwicklungs- und Automatisierungsaufgaben ist Devstral die interessanteste Wahl: Open-Weight, stark in komplexen Code-Setups, und mit wachsendem Ökosystem an Tool-Integrationen.