0 Zum Inhalt springen
CASOON

Mistral als KI-Engine im KMU: Mieten oder selbst hosten?

SaaS versus On-Premises – Kosten, Betriebsaufwand und organisatorische Reife für Unternehmen mit 200 Mitarbeitenden

Mistral als KI-Engine im KMU: Mieten oder selbst hosten?
#Mistral #KI #KMU #On-Premises

Kompakte Sprachmodelle – Mistral Nemo, Mistral 7B, vergleichbare Modelle mit 7 bis 12 Milliarden Parametern – laufen heute auf Hardware, die KMU realistisch beschaffen können. Die technische Schwelle für On-Premises ist gesunken. Die organisatorische nicht.

Das ist der Kern der Entscheidung, der in den meisten Vergleichen untergeht: Ob SaaS oder selbst gehostet richtig ist, hängt weniger am Kostendiagramm als daran, ob das Unternehmen die nötigen Fähigkeiten intern hat oder aufbauen will.

Aus der Praxis kommt ein weiteres Signal: Das eigentliche Problem ist selten das Modell. Es ist der Zugriff auf strukturierte, saubere Daten. Wer keine Datenstrategie hat, wird weder mit SaaS noch mit On-Premises gute Ergebnisse erzielen.

Was Mistral-Modelle wirklich leisten

Mistral 7B und Nemo sind attraktiv – aber ihre Stärken und Grenzen sollten klar sein, bevor Infrastrukturentscheidungen getroffen werden.

Kompakte Modelle sind stark bei strukturierten Aufgaben: Extraktion, Klassifikation, einfache Assistenz, Dokumentzusammenfassungen. Bei komplexem Reasoning – mehrstufige Entscheidungen, juristische Interpretation, ambiger Kontext – liegen sie deutlich unter GPT-4-Klasse-Modellen. Starke Abhängigkeit von gutem Kontext bedeutet in der Praxis: RAG funktioniert besser als reines Prompting.

Quantisierung (4-Bit oder 8-Bit) reduziert den Speicherbedarf erheblich und ermöglicht den Betrieb auf kleinerer Hardware. Sie kann aber die Output-Qualität spürbar beeinflussen. Für viele Business-Anwendungen ist das akzeptabel; für kritische Prozesse sollte es vorab evaluiert werden.

Ein konkretes Muster: Ein 7B-Modell kann zuverlässig Rechnungsdaten extrahieren oder interne Dokumente zusammenfassen. Dasselbe Modell wird bei mehrstufiger Vertragsanalyse oder kontextarmen Anfragen inkonsistent – das ist kein Mangel, sondern definiert den sinnvollen Einsatzbereich.

Was in Pilotprojekten regelmäßig unterschätzt wird: Ohne saubere Prompt-Strukturen, Guardrails und ein einfaches Evaluationsframework bleibt selbst ein gut gewähltes Modell inkonsistent. Das Prompt-Design entscheidet in der Praxis mehr über die Ausgabequalität als die Modellwahl selbst.

Szenario A – Miete über SaaS oder Public Cloud

Mistral via La Plateforme oder AWS Bedrock: nutzungsbasierte Abrechnung, kein eigener Hardwarebetrieb.

Bei 200 Mitarbeitenden mit 50 bis 100 Anfragen pro Person und Tag – Chatbots, Textanalyse, Dokumentzusammenfassungen – ergibt eine Bewertung monatlich 1.500 bis 4.000 Euro bei Token-Preisen zwischen 0,10 und 0,50 Euro pro Million Tokens. Premium-Features wie Fine-Tuning oder erhöhte Verfügbarkeit kommen mit 500 bis 1.000 Euro dazu. Jahres-TCO: rund 30.000 bis 60.000 Euro.

Administrativer Aufwand: 0,1 bis 0,2 FTE für API-Keys, Nutzungsquoten, Integration. Keine Hardware, keine Patches.

Der Haken liegt nicht im Preis, sondern in der Abhängigkeit: Modellversionen ändern sich ohne Ankündigung, Datentransfer-Kosten summieren sich, und bei sensiblen Daten bleibt eine rechtliche Grauzone, solange die Verarbeitung außerhalb eigener Server stattfindet.

Szenario B – Lokale Engine auf eigener Infrastruktur

Ollama, vLLM oder Hugging Face Transformers als Inference-Server auf firmeneigener Hardware – mit Quantisierung für effiziente GPU-Auslastung, optional einer lokalen Vektordatenbank wie Milvus für RAG-Anwendungen.

Einmaliger Aufwand (CapEx): Hardware und GPUs (NVIDIA A100 oder vergleichbar, 80 bis 160 GB VRAM) kosten 20.000 bis 50.000 Euro, Setup und Implementierung weitere 5.000 bis 10.000 Euro. Über drei Jahre gerechnet: rund 10.000 Euro pro Jahr.

Laufende Kosten (OpEx): Strom und Wartung 300 bis 800 Euro monatlich, anteilig Personal 500 bis 1.000 Euro. Gesamt: 1.500 bis 3.000 Euro pro Monat – in der gleichen Größenordnung wie die Miete, aber mit Abschreibung: nach 24 bis 36 Monaten sinken die monatlichen Gesamtkosten spürbar.

Was beim Betrieb tatsächlich anfällt, geht über die laufenden Kosten hinaus: GPU-Management, Scheduling, Failover bei Ausfällen, neue Modellversionen testen und evaluieren, Netzwerksegmentierung und Zugriffskontrolle, kontinuierliches Monitoring der Outputs. On-Premises ist kein reines Infrastrukturprojekt – es ist ein laufender KI-Betrieb. Dieser Managed Layer, der bei SaaS automatisch enthalten ist, fehlt bei selbst gehostetem Open-Weight-Betrieb vollständig.

Vergleich

KriteriumMiete (SaaS)Eigene Engine (On-Prem)
Monatliche Kosten1.500 – 4.000 Euro1.500 – 3.000 Euro (sinkend)
Einrichtungsaufwand1 – 2 Wochen4 – 8 Wochen
Admin-Aufwand0,1 – 0,2 FTE0,5 – 1,0 FTE
AmortisationKeineNach 24 – 36 Monaten
SkalierbarkeitHoch (automatisch)Mittel (Hardware-Upgrades nötig)
DatensicherheitAbhängig vom Cloud-StandortLokal, DSGVO-konform

Wo Deployments in der Praxis scheitern

Die häufigsten Engpässe sind nicht technischer Natur – sie entstehen in der Betriebsrealität rundherum.

Inference ist nicht das Problem – Daten sind es. Die größte Hürde ist selten das Modell, sondern der Zugriff auf strukturierte, saubere Daten für sinnvolle Anwendungen. RAG funktioniert nur, wenn die Quelldaten konsistent, aktuell und durchsuchbar sind.

GPU-Auslastung wird überschätzt. Viele KMU erreichen keine konstant hohe Last. Systeme laufen 60 bis 80 Prozent der Zeit unterfordert – was die Wirtschaftlichkeit von On-Premises verzerrt. Die Amortisationsrechnung setzt eine Auslastung voraus, die in der Realität oft nicht erreicht wird.

Latenz wird falsch priorisiert. Lokale Inference ist technisch schneller, aber für 80 Prozent der Business-Anwendungen – Dokumente, E-Mails, Wissensabfragen – spielt Latenz keine entscheidende Rolle.

On-Premises scheitert in der Praxis meist nicht an den Kosten, sondern an der Expertise: niemand, der Modell-Updates einspielt; Monitoring, das irgendwann abgeschaltet wird; Security-Patches, die monatelang ausstehen bleiben. Die Cloud-Variante hat da einen strukturellen Vorteil – sie läuft auch ohne interne Pflege.

DSGVO und Daten: differenzierter betrachten

Der Reflex, On-Premises mit DSGVO-Konformität gleichzusetzen, greift zu kurz.

Cloud ist nicht automatisch problematisch: EU-Regionen, Auftragsverarbeitungsverträge und korrekte Konfiguration können viele Risiken reduzieren. Mistral betreibt La Plateforme in Europa; für viele Kategorien personenbezogener Daten ist das ausreichend.

On-Premises ist nicht automatisch sicher: Fehlkonfigurationen, fehlendes Patch-Management und kein Logging sind reale Risiken, die in schlecht betriebenen Systemen regelmäßig auftreten. Ein GPU-Cluster ohne dedizierten DevOps-Engineer ist kein Gewinn für den Datenschutz.

Der sinnvollere Ansatz: Daten nach Sensibilität klassifizieren und daraus Architekturentscheidungen ableiten – nicht umgekehrt. Nicht alle KI-Anwendungen benötigen denselben Schutzlevel. Fertigungsgeheimnisse, Personalunterlagen und Finanzberichte rechtfertigen On-Premises; generische Textassistenz und Dokumentklassifikation mit anonymisierten Daten in der Regel nicht.

Wann On-Premises sinnvoll ist

On-Premises lohnt sich, wenn mindestens zwei dieser vier Faktoren erfüllt sind:

  • Planbare, hohe Last – automatisierte Dokumentenverarbeitung, kontinuierliche Pipeline-Workloads
  • Klare Datenschutzanforderungen mit interner Compliance-Verantwortung, nicht nur als pauschale Präferenz
  • Bestehende Infrastruktur – Kubernetes, GPU-Workloads, DevOps-Team vorhanden
  • Bedarf an stabilen Modellversionen – wenn externe Updates das Produktionssystem destabilisieren würden

Fehlen diese Faktoren, ist SaaS nicht nur einfacher, sondern strategisch die bessere Entscheidung. Die Abwägung ist keine Infrastrukturfrage, sondern eine Frage der organisatorischen Reife.

Mistral im KMU: eine Einschätzung

Mistral ist aktuell besonders stark, wo Kostenkontrolle wichtiger ist als maximale Modellleistung, Daten lokal bleiben müssen oder Anwendungen klar strukturiert sind – interne Tools, Automatisierung, Dokumentprozesse.

Schwächer ist Mistral dort, wo hohe semantische Genauigkeit entscheidend ist, komplexe mehrstufige Entscheidungen getroffen werden müssen oder wenig strukturierter Kontext vorhanden ist.

Das führt zu einer strategischen Einschätzung: Mistral ist kein Ersatz für große Modelle – sondern ein Baustein in einer gemischten Architektur. Viele technisch reife Setups kombinieren große Cloud-Modelle für komplexe Tasks mit kleinen, lokal gehosteten Modellen für skalierbare Standardprozesse. Dieser Hybrid setzt allerdings voraus, dass On-Premises bereits betrieben wird und die Infrastruktur steht.

Typischer Evolutionspfad

Unternehmen, die direkt mit On-Premises starten, überschätzen ihre Reife und unterschätzen den operativen Aufwand. Realistisch entwickeln sich erfolgreiche KMU-Setups so:

  1. Einstieg über SaaS – schnell, risikoarm, klarer Lerneffekt
  2. Identifikation von zwei bis drei stabilen Use Cases mit messbarem Nutzen
  3. Aufbau von Datenpipelines und RAG-Infrastruktur
  4. Teilweise Verlagerung auf On-Premises, wo Last und Datenschutz es rechtfertigen
  5. Etablierung einer hybriden Architektur mit klarer Zuständigkeit

Wer ein Jahr lang mit der gemieteten Variante arbeitet, weiß danach viel genauer, welche Workloads tatsächlich ausgelastet sind und wo lokale Verarbeitung wirklich nötig ist.

Einordnung

Für die meisten KMU ist der Einstieg via SaaS sinnvoll – nicht weil On-Premises teurer wäre, sondern weil der Schritt von API-Keys verwalten zu GPU-Cluster betreiben größer ist, als er auf dem Papier aussieht.

Die Entscheidung zwischen SaaS und On-Premises ist keine Infrastrukturfrage, sondern eine Frage der organisatorischen Reife. Mistral macht On-Premises technisch möglich – aber nicht automatisch sinnvoll. Der Engpass liegt selten in der Hardware. Er liegt in der fehlenden Datenstrategie, dem fehlenden KI-Betriebsmodell und der fehlenden personellen Verantwortung. Wer das ignoriert, baut mit On-Premises keine Kostenersparnis auf, sondern Komplexität.