EU-konforme KI im Mittelstand: 3 Architektur-Optionen ohne Buzzword-Bingo

EU-konform, leistungsfähig und bezahlbar – geht das überhaupt? Ja. Aber nicht mit jeder Architektur. Und nicht, wenn man das Thema an die Rechtsabteilung delegiert und hofft, dass sich das Problem von selbst löst.

Für mittelständische Unternehmen ist KI längst kein Zukunftsthema mehr. Die Frage ist nicht ob, sondern wie. Und „wie” bedeutet in Europa vor allem: unter welchen regulatorischen, wirtschaftlichen und technischen Rahmenbedingungen. Dieser Artikel vergleicht drei Architektur-Optionen – nüchtern, ohne Hype, mit konkreten Entscheidungskriterien.

Warum das jetzt wichtig ist

Drei Entwicklungen treffen gleichzeitig aufeinander und zwingen Unternehmen zum Handeln.

Regulatorischer Druck steigt. Der EU AI Act tritt stufenweise in Kraft und bringt Klassifizierungspflichten, Transparenzanforderungen und Dokumentationsvorgaben. Die DSGVO gilt ohnehin – und wer personenbezogene Daten an US-Dienste übergibt, bewegt sich nach dem Schrems-II-Urteil auf dünnem Eis. NIS2 verschärft zusätzlich die Anforderungen an IT-Sicherheit in kritischen Sektoren.

API-Kosten und Abhängigkeit wachsen. Wer alles über OpenAI, Anthropic oder Google laufen lässt, bindet sich an Preismodelle, die sich jederzeit ändern können. Token-basierte Abrechnung skaliert schlecht bei hohem Volumen. Und die Abhängigkeit von einem einzelnen Anbieter ist ein strategisches Risiko, das viele Unternehmen erst zu spät erkennen.

Open-Weight-Modelle sind erwachsen geworden. Llama 3, Mistral Large, Mixtral 8x22B und Qwen 2.5 zeigen: Für viele Anwendungsfälle braucht man kein proprietäres Closed-Source-Modell mehr. Die Leistung reicht – wenn man die richtige Infrastruktur hat.

Option 1 – Self-Hosted Open-Weight-Modelle

Die radikalste Form der Kontrolle: Modelle laufen auf eigener Hardware, im eigenen Rechenzentrum oder auf dedizierten Servern. Keine Daten verlassen das Unternehmen.

Was das technisch bedeutet

Ein Modell wie Llama 3 70B läuft performant auf zwei NVIDIA H100 GPUs. Das klingt nach Großunternehmen, ist aber auch für den Mittelstand machbar – über dedizierte Server bei europäischen Hostern oder eigene GPU-Knoten. Für kleinere Modelle (7B-13B) reicht oft eine einzelne GPU oder sogar leistungsfähige Consumer-Hardware.

Die Infrastruktur umfasst typischerweise:

Inference-Server: vLLM, TGI (Text Generation Inference) oder Ollama für lokalen Betrieb
Modellverwaltung: Versionierung, Updates, Rollback-Strategien
Monitoring: GPU-Auslastung, Latenz, Durchsatz, Fehlerraten
Skalierung: Load Balancing bei mehreren Modellinstanzen

Wann das sinnvoll ist

Self-Hosting lohnt sich, wenn sensible Daten verarbeitet werden – Patientendaten, Finanzdaten, interne Strategiedokumente. Oder wenn das Volumen hoch genug ist, dass sich die Fixkosten der Hardware gegenüber variablen API-Kosten rechnen.

Ein mittelständisches Unternehmen mit eigenem IT-Team und klarer KI-Strategie kann hier die volle Kontrolle bekommen: über Daten, Modellverhalten, Verfügbarkeit und Kosten.

Wo die Grenzen liegen

Self-Hosting verlangt Kompetenz. GPU-Hardware will gewartet werden. Modell-Updates müssen evaluiert und eingespielt werden. Und wer Skalierung braucht – etwa saisonale Lastspitzen – stößt mit fixer Hardware schnell an Grenzen.

Der Einstieg ist auch nicht billig: Zwei H100 kosten im Dauerbetrieb bei einem europäischen Hoster zwischen 3.000 und 6.000 Euro monatlich. Dazu kommen Setup, Betrieb und Personal.

Option 2 – Hybrid: Lokale Daten, EU-Cloud-Inferenz

Der Kompromiss, der in der Praxis am häufigsten funktioniert: Daten bleiben lokal, die rechenintensive Inferenz läuft über EU-basierte Cloud-Dienste. Die Architektur trennt bewusst Datenhaltung und Verarbeitung.

Wie das funktioniert

Lokale Datenhaltung

API-Gateway / Proxy

EU-Cloud Inferenz-API

Ergebnis zurück

Der Schlüssel liegt in der Datenaufbereitung vor dem API-Call. Personenbezogene oder vertrauliche Informationen werden lokal vorverarbeitet – durch Anonymisierung, Pseudonymisierung oder Aggregation. Was an die Cloud geht, ist bereits bereinigt.

Technisch setzt das voraus:

Lokaler Embedding-Store: Vektordatenbank (Qdrant, Weaviate, Milvus) für RAG-Anwendungen läuft on-premise
API-Gateway: Zentrale Stelle für Routing, Rate Limiting, Logging und Compliance-Checks
Confidential Computing: Einige EU-Anbieter bieten verschlüsselte Laufzeitumgebungen (TEEs), in denen selbst der Cloud-Betreiber keinen Zugriff auf die verarbeiteten Daten hat
Data Residency: Vertragliche und technische Garantie, dass Daten den EU-Raum nicht verlassen

Wann das sinnvoll ist

Hybrid eignet sich für Unternehmen, die leistungsfähige Modelle nutzen wollen, ohne selbst GPU-Infrastruktur zu betreiben. Die Trennung von Daten und Inferenz reduziert das Compliance-Risiko deutlich, weil sensible Informationen nie die eigene Infrastruktur verlassen.

Besonders attraktiv ist dieser Ansatz, wenn verschiedene Modellgrößen gebraucht werden: Kleine Aufgaben laufen lokal auf einem 7B-Modell, komplexe Analysen gehen an ein 70B-Modell in der EU-Cloud.

Wo die Grenzen liegen

Die Architektur ist komplexer als die anderen beiden Optionen. Zwei Umgebungen müssen betrieben, synchronisiert und abgesichert werden. Und die Anonymisierung der Daten vor dem API-Call ist kein triviales Problem – wer das nicht sorgfältig implementiert, hat trotz lokaler Datenhaltung ein Datenschutzproblem.

Option 3 – Reine EU-Cloud-Lösung

Alles aus einer Hand, aber aus europäischer Hand: Daten, Modelle und Infrastruktur liegen bei einem EU-Anbieter. Der geringste Aufwand für das eigene Team – aber mit eigenen Trade-offs.

Was der Markt hergibt

Europäische Cloud-Anbieter haben in den letzten zwei Jahren massiv aufgerüstet. Ein Überblick:

Scaleway (Frankreich): GPU-Instanzen mit NVIDIA H100, eigenes LLM-Inference-Angebot, starker Fokus auf Energieeffizienz und grüne Rechenzentren. AI-APIs mit Mistral-Modellen direkt nutzbar.
Hetzner (Deutschland): Bekannt für aggressives Preis-Leistungs-Verhältnis. GPU-Server verfügbar, aber weniger Managed-AI-Services. Ideal für Teams, die Inferenz-Stacks selbst aufsetzen können.
OVHcloud (Frankreich): SecNumCloud-Zertifizierung für höchste Sicherheitsanforderungen. AI-Training- und Inference-Angebote, DSGVO-konform by Design.
IONOS (Deutschland): KI-Plattform mit europäischer Datenresidenz, Integration mit bestehenden Hosting-Produkten.

Compliance als Feature

Der größte Vorteil der EU-Cloud-Option ist die Compliance-Vereinfachung. Vertragliche Garantien zu Datenstandort, Zertifizierungen (ISO 27001, SOC 2, C5) und SLAs sind Teil des Angebots. Das Unternehmen muss sich nicht selbst um Hardware-Sicherheit, physische Zugangskontrollen oder Zertifizierungsprozesse kümmern.

Für Branchen mit besonderen Anforderungen – Gesundheit, Finanzwesen, öffentliche Verwaltung – kann eine zertifizierte EU-Cloud der schnellste Weg zur Compliance sein.

Wo die Grenzen liegen

EU-Cloud-Anbieter sind bei reiner Rechenleistung und Modellvielfalt noch nicht auf dem Niveau der US-Hyperscaler. Wer die neuesten Modelle am Tag der Veröffentlichung braucht, wird bei Scaleway oder OVH nicht immer fündig.

Außerdem bleibt ein Abhängigkeitsrisiko bestehen – es verschiebt sich nur vom US-Anbieter zum EU-Anbieter. Multi-Cloud-Strategien und offene Standards (Container, Kubernetes, OpenTofu) reduzieren dieses Risiko.

Vergleich: Vier Dimensionen, drei Optionen

Dimension	Self-Hosted	Hybrid	EU-Cloud
Kostenmodell	Hohe Fixkosten (Hardware, Personal), niedrige variable Kosten	Mittlere Fixkosten (lokale Infra), variable API-Kosten	Niedrige Fixkosten, variable Compute-Kosten
Leistung	Volle Kontrolle über Latenz, abhängig von eigener Hardware	Flexibel skalierbar, Latenz abhängig von Netzwerk	Gute Skalierung, Modellauswahl begrenzt
Compliance	Maximum – Daten verlassen nie das Unternehmen	Hoch – wenn Anonymisierung sauber umgesetzt	Hoch – durch Zertifizierungen und SLAs abgesichert
Komplexität	Hoch – GPU-Betrieb, Modellpflege, Monitoring	Mittel bis hoch – zwei Umgebungen, Datenaufbereitung	Niedrig bis mittel – Managed Services reduzieren Aufwand

Die Tabelle zeigt: Es gibt keine objektiv beste Option. Was zählt, sind die konkreten Anforderungen des Unternehmens.

Entscheidungshilfe: Welche Option passt?

Statt einer abstrakten Matrix helfen vier konkrete Fragen:

1. Wie sensibel sind die Daten? Wenn personenbezogene Daten, Geschäftsgeheimnisse oder regulierte Informationen verarbeitet werden und keine Anonymisierung möglich ist: Self-Hosted. Wenn Anonymisierung machbar ist: Hybrid. Wenn die Daten unkritisch sind: EU-Cloud reicht.

2. Wie viel GPU-Kompetenz hat das Team? Wer GPU-Infrastruktur betreiben, Modelle evaluieren und Inference-Stacks pflegen kann: Self-Hosted ist eine realistische Option. Wer das nicht kann oder will: Hybrid oder EU-Cloud.

3. Wie hoch ist das Inferenz-Volumen? Ab einem bestimmten Volumen rechnet sich eigene Hardware. Als Faustregel: Wer mehr als 10.000 Euro monatlich für API-Calls ausgibt, sollte Self-Hosting durchrechnen. Darunter ist die Cloud meist günstiger.

4. Wie schnell muss es gehen? EU-Cloud-Lösungen sind am schnellsten produktionsreif. Hybrid braucht Wochen bis wenige Monate. Self-Hosted braucht Monate – Hardware beschaffen, Stack aufbauen, Team aufbauen.

Typische Szenarien

Daten sensibel + GPU-Team vorhanden

Daten sensibel + kein GPU-Team

Daten unkritisch + schneller Start nötig

Hohes Volumen + Kostendruck

Regulierte Branche + Zertifizierungsbedarf

Strategien kombinieren

In der Praxis fahren die meisten Unternehmen nicht dauerhaft eine einzelne Strategie. Der pragmatische Weg: klein starten, gezielt ausbauen.

Phase 1 – EU-Cloud: Schneller Einstieg mit Managed Services. Erste Use Cases validieren, Erfahrung sammeln, ROI messen.

Phase 2 – Hybrid: Lokale Vektordatenbank aufbauen, sensible Workflows von der Cloud-API entkoppeln. API-Gateway als zentrale Steuerung einführen.

Phase 3 – Selektives Self-Hosting: Hochvolumige oder hochsensible Workloads auf eigene Hardware verlagern. Cloud bleibt für Spitzenlast und neue Modelle.

Dieser Stufenplan reduziert Risiko und Investition. Er setzt voraus, dass die Architektur von Anfang an modular aufgebaut ist – Container, standardisierte APIs, Infrastructure as Code. Wer sich in der ersten Phase an proprietäre Schnittstellen eines einzelnen Anbieters bindet, verbaut sich den Weg in Phase 2 und 3.

Was kommt danach

Das europäische KI-Ökosystem steht nicht still. Drei Entwicklungen werden die hier beschriebenen Optionen in den nächsten Jahren verändern:

Souveräne Großmodelle. Projekte wie SOOFI entwickeln europäische Open-Source-Modelle mit 100 Milliarden Parametern – EU-AI-Act-konform by Design, trainiert auf europäischer Infrastruktur. Wenn solche Modelle produktionsreif werden, verschiebt sich das Gleichgewicht zugunsten europäischer Self-Hosting- und Cloud-Optionen.

Edge-KI und effiziente Modelle. Kleinere, spezialisierte Modelle, die auf Edge-Geräten oder Standard-Servern laufen, machen Self-Hosting auch ohne GPU-Cluster möglich. Techniken wie Quantisierung und Distillation bringen 70B-Modelle auf Hardware, die heute noch 7B-Modelle braucht.

Federated Learning und Privacy-Preserving AI. Ansätze, bei denen Modelle trainiert werden, ohne dass Rohdaten das Unternehmen verlassen, lösen das Kernproblem der Hybrid-Architektur elegant. Noch nicht Mainstream, aber auf dem Weg dorthin.

Unterm Strich

EU-konforme KI im Mittelstand ist kein Widerspruch – aber eine Architekturentscheidung. Keine der drei Optionen ist pauschal überlegen. Was zählt: die eigenen Anforderungen ehrlich bewerten, modular starten und die Architektur so aufbauen, dass man sich nicht in eine Sackgasse manövriert.

Wer tiefer in die technische Umsetzung lokaler Modelle einsteigen will, findet im Artikel Datenschutz und Kontrolle – der unterschätzte Vorteil lokaler Modelle den passenden Anschluss. Und wer die strategische Dimension souveräner Infrastruktur verstehen will: Vom Nutzer zum Betreiber ordnet ein, warum Architektur auch eine politische Entscheidung ist.