KI-Crawler und Datenschutz: Was bisher passiert ist – und warum

KI-Systeme brauchen Daten – das war von Anfang an bekannt. Was sich als unterschätzt herausgestellt hat: Die Rechtsgrundlage für diese Daten fehlt in vielen Fällen ganz, oder sie ist so unklar, dass Aufsichtsbehörden und Gerichte eingreifen müssen. Die folgenden Vorfälle sind keine zufälligen Einzelfälle. Sie zeigen Muster, die aus dem Geschäftsmodell großer KI-Systeme entstehen.

Der Konflikt ist dabei strukturell angelegt: Wer die besten Modelle bauen will, braucht die meisten Daten – und bewegt sich damit zwangsläufig an regulatorischen Grenzen.

2019–2021: Trainingsdaten ohne Rechtsgrundlage

Clearview AI hat eine Gesichtsdatenbank aus öffentlichen Social-Media-Profilen aufgebaut – ohne Einwilligung der Betroffenen, ohne Information, ohne erkennbare Rechtsgrundlage. Schätzungen sprechen von mehr als drei Milliarden Gesichtsfotos. Parallel wurden Datensätze wie Common Crawl – eine Sammlung öffentlich zugänglicher Webinhalte – massenhaft für KI-Training genutzt, inklusive personenbezogener Daten aus Foren, Blogs und Kommentarspalten.

Rechtlich problematisch sind beide Fälle aus denselben Gründen: Art. 6 DSGVO verlangt eine Rechtsgrundlage für jede Verarbeitung personenbezogener Daten. Bei biometrischen Daten wie Gesichtsfotos greift zusätzlich Art. 9 DSGVO, der für besondere Kategorien personenbezogener Daten erhöhte Anforderungen stellt. Clearview AI wurde in mehreren EU-Ländern mit Millionenstrafen belegt und musste in der EU seine Datenbanken für europäische Nutzer sperren.

Ein oft übersehener Aspekt: Das Argument des „berechtigten Interesses” nach Art. 6 Abs. 1 lit. f DSGVO verändert sich wesentlich, je nachdem was mit den Daten passiert. Während klassische Suchmaschinen-Crawler primär der Auffindbarkeit dienen und Daten indexieren, werden Inhalte beim KI-Training dauerhaft in Modelle integriert – mit potenziell unkontrollierbarer Weiterverarbeitung. Die Interessenabwägung muss zwei Faktoren berücksichtigen: die Erwartbarkeit des Nutzers (hat er damit gerechnet, dass seine Inhalte in ein KI-Modell fließen?) und die Eingriffsintensität (Indexierung vs. dauerhafte Modellintegration sind grundlegend verschieden).

2022: GitHub Copilot und memorisierter Code

GitHub Copilot wurde auf öffentlichem Code aus GitHub-Repositories trainiert. Das Modell kann unter bestimmten Bedingungen Trainingsinhalte reproduzieren – inklusive Lizenzkommentaren und, in Einzelfällen, sensiblen Strings wie API-Keys oder Zugangsdaten, die versehentlich in Repositories eingecheckt wurden.

Das zeigt ein grundlegendes Problem von LLMs: Sie lernen Muster, nicht Kontext. Ein Modell unterscheidet nicht zwischen „diese Zeichenkette ist ein API-Key” und „diese Zeichenkette ist ein Variablenname”. Was im Training gesehen wurde, kann unter den richtigen Prompts wieder auftauchen.

Das Risiko beschränkt sich dabei nicht auf einzelne Tools: Jeder Trainingsprozess ohne saubere Datenfilterung kann dazu führen, dass sensible Inhalte statistisch rekonstruierbar bleiben – unabhängig davon, ob der ursprüngliche Code längst gelöscht wurde.

2023: Italien blockiert ChatGPT

Im März 2023 hat die italienische Datenschutzbehörde Garante ChatGPT vorübergehend gesperrt. Die Kritikpunkte: unklare Datenverarbeitung, fehlende Transparenz gegenüber Nutzern, keine Altersverifikation trotz potenziell jugendschutzrelevanter Inhalte.

OpenAI reagierte: Opt-out-Funktion für Trainingsdaten, klarere Datenschutzerklärung, Alterskontrollen für italienische Nutzer. Die Sperrung wurde aufgehoben. Was bleibt: Art. 13 DSGVO – die Pflicht, Betroffene klar über Datenverarbeitung zu informieren – gilt auch für KI-Systeme, unabhängig davon, wie neuartig sie sind.

2023–2024: KI-Crawler ignorieren robots.txt

Mit dem öffentlichen Start von GPTBot (OpenAI) und ClaudeBot (Anthropic) begann eine neue Phase: spezialisierte Crawler, die explizit für Trainingsdaten-Sammlung eingesetzt werden.

robots.txt ist kein rechtlich bindender Standard. Es ist ein technisches Protokoll, das auf Freiwilligkeit basiert – und das nur bei kooperativen Akteuren funktioniert. Für wirtschaftlich motivierte KI-Crawler oder aggressive Scraper ist sie oft irrelevant, da keine technische Durchsetzung existiert. Es gibt drei Kategorien zu unterscheiden: verifizierte Bots großer Anbieter, die robots.txt in der Regel respektieren; opportunistische Crawler, die es selektiv tun; und aggressive Scraper, die es schlicht ignorieren.

Rechtlich ist die Lage uneinheitlich. Das Argument „berechtigtes Interesse” nach Art. 6 Abs. 1 lit. f DSGVO wird von Unternehmen für das Crawlen öffentlicher Seiten angeführt. Gegenargument: Wenn personenbezogene Daten enthalten sind, reicht die Interessenabwägung nicht automatisch aus – Transparenz und Widerspruchsmöglichkeit müssen gewährleistet sein. In der Praxis entsteht aktuell eine informelle Erweiterung von robots.txt um KI-spezifische Regeln (GPTBot, ClaudeBot, Google-Extended). Ein verbindlicher Standard fehlt jedoch, was die Durchsetzbarkeit weiter einschränkt.

2024: The New York Times vs. OpenAI

The New York Times hat OpenAI und Microsoft verklagt – wegen Nutzung von Millionen Artikeln für KI-Training ohne Lizenz. Die Klage enthielt konkrete Beispiele, in denen GPT-4 Artikel nahezu wörtlich reproduzierte, inklusive Rechercheergebnissen und Zitaten.

Der Fall bewegt sich an der Schnittstelle von zwei Rechtsgebieten, die klar getrennt werden sollten: Auf der urheberrechtlichen Ebene geht es um Lizenzierung, Vervielfältigung und das Recht der Verlage an ihren Inhalten. Auf der datenschutzrechtlichen Ebene entstehen zusätzliche Risiken, sobald personenbezogene Inhalte – Berichte über Einzelpersonen, Interviews, Gerichtsberichterstattung – Teil der Trainingsdaten oder generierten Outputs werden. Beide Ebenen greifen unabhängig voneinander.

Der Fall ist noch nicht abgeschlossen, hat aber bereits dazu geführt, dass mehrere Verlage eigene Klagen oder Lizenzverhandlungen eingeleitet haben.

Meta hat öffentliche Beiträge auf Facebook und Instagram für KI-Training genutzt. Das Modell: Opt-out statt Opt-in. Wer nicht aktiv widerspricht, stimmt zu. In der EU wurde das von mehreren Aufsichtsbehörden kritisch bewertet – die irische DPC hat entsprechende Verfahren eingeleitet.

2025–2026: Perplexity und das Tracking-Problem

Perplexity AI hat für eine neue Art von Datenschutzproblem gesorgt: Nutzerdaten – auch von nicht eingeloggten Nutzern – wurden an Google und Meta weitergegeben. Die Kombination aus KI-Suchinterface und klassischem Ad-Tech-Tracking erzeugte eine Risikokategorie, die Over-the-top-Dienste bisher weniger betraf.

Wichtig für die rechtliche Einordnung: Beim Tracking greift zunächst die ePrivacy-Richtlinie (in Deutschland: TTDSG), die eine Einwilligung für nicht technisch notwendige Cookies und Tracking-Maßnahmen verlangt – noch bevor die DSGVO relevant wird. Die DSGVO greift auf der nächsten Ebene, etwa bei Profilbildung oder Datenweitergabe an Dritte. Perplexity verletzt beide Ebenen gleichzeitig. Das macht den Fall komplexer als klassische Crawler-Diskussionen: Es geht nicht um Trainingsdaten, sondern um Echtzeit-Tracking im KI-Interface.

Was sich gerade ändert

Drei Entwicklungen, die den Kontext für die nächsten Jahre setzen:

KI wird Infrastruktur, nicht mehr nur Tool. Crawler-Aktivität ist kein Nebenprodukt mehr, sondern zentrale Datenbeschaffungsstrategie. Die Mengen, Häufigkeiten und Ziele von KI-Crawlern wachsen. Gleichzeitig bauen Anbieter wie Cloudflare seit 2024 eigene KI-Crawler-Kategorien in ihre WAF ein – ein Hinweis, dass sich hier ein eigener Infrastruktur-Layer für KI-Traffic etabliert.

Datenbeschaffung wird strategisch reguliert. Mit dem EU AI Act entstehen erstmals indirekte Anforderungen an Trainingsdaten – insbesondere Transparenzpflichten für General Purpose AI (GPAI). Diese betreffen zwar primär Anbieter von Modellen, wirken aber faktisch auf die gesamte Datenbeschaffungskette zurück. Wer Content bereitstellt, der in GPAI-Training fließt, wird Teil einer regulierten Infrastruktur – auch wenn er selbst kein Modell betreibt.

Regulierung zieht nach, aber langsam. DSGVO, ePrivacy, AI Act und nationale Umsetzungsgesetze entwickeln sich unkoordiniert. Lücken bleiben – und werden von Unternehmen strategisch genutzt, bis Behörden oder Gerichte intervenieren.

Die Muster hinter den Fällen

Die Vorfälle sind verschieden, aber sie entstehen aus denselben Ursachen:

Datenhunger als Treiber. LLMs brauchen massive Datenmengen. Qualität ist zweitrangig, Masse entscheidend. Das erzeugt wirtschaftlichen Druck, Compliance als Hindernis zu behandeln – statt als Designanforderung.

Grauzonen statt klarer Regeln. Die DSGVO existiert seit 2018, wurde aber geschrieben, bevor LLMs in dieser Form existierten. KI-Training ist kein klassischer Verarbeitungsfall. Neue Use Cases fallen in Lücken, die Regulatoren erst schließen müssen.

„Öffentlich gleich frei” als Fehleinschätzung. Daten, die öffentlich zugänglich sind, unterliegen trotzdem Datenschutzrecht. Einwilligung zur Veröffentlichung ist keine Einwilligung zur Weiterverarbeitung. Diese Unterscheidung ist juristisch klar – technisch und wirtschaftlich aber unbequem.

Infrastruktur-Mix als neues Risiko. Die Kombination aus KI-Funktionen, Tracking und Analytics erzeugt Risikokategorien, die bestehende Regelwerke nicht vollständig abdecken.

Wo die rechtlichen Grenzen liegen

Kurz zusammengefasst, was heute gilt:

Einwilligung erforderlich bei Tracking, Cookies, Profilbildung für Werbezwecke – ePrivacy/TTDSG greift vor DSGVO
Berechtigtes Interesse möglich, aber: Abwägung nach Art. 6 DSGVO nötig, Eingriffsintensität und Erwartbarkeit müssen berücksichtigt werden
Verboten: Verarbeitung sensibler Daten (Gesundheit, Biometrie, Religion) ohne explizite Grundlage nach Art. 9 DSGVO
Rechtlich riskant: Weitergabe an Dritte ohne Information der Betroffenen
AI Act (ab 2025/26): Transparenzpflichten für GPAI-Modelle wirken auf die gesamte Trainingsdaten-Beschaffungskette zurück

Was Website-Betreiber konkret tun können

Infrastruktur

Die erste Verteidigungslinie sind technische Zugangskontrollen. Hier empfehlen sich drei Ebenen:

WAF mit KI-Bot-Kategorisierung: Cloudflare Bot Management unterscheidet seit 2024 AI-Bots als eigene Kategorie; ähnliche Funktionen bieten Fastly und Akamai. Das ermöglicht differenziertes Blocking statt Alles-oder-nichts.
Rate Limiting: Ungewöhnliche Request-Frequenzen sind ein verlässliches Erkennungsmerkmal für Scraper. Limits reduzieren den Anreiz für aggressive Crawler.
IP Reputation und Traffic-Monitoring: Ohne Monitoring bleiben KI-Crawler oft unbemerkt. Auffällig sind hohe Request-Raten, ungewöhnliche Zugriffsmuster oder Traffic aus atypischen Regionen – alles erkennbar aus Server-Logs.

Applikation

Login-Walls für sensible Inhalte: Was nicht öffentlich erreichbar ist, kann nicht gecrawlt werden. Bei wertvollen oder personenbezogenen Inhalten ist das die sicherste Maßnahme.
API statt HTML für strukturierte Daten: Wer Daten maschinenlesbar über eine kontrollierte API bereitstellt, hat mehr Kontrolle als wer Inhalte offen im HTML exponiert.
Honeypot-Links: Für Crawler nicht sichtbare Links, die im Browser nicht angeklickt werden, aber von Bots verfolgt werden – ein klassisches Erkennungs- und Blockierungsmittel.

Recht und Kommunikation

Bot Policy definieren: Welche Crawler sind erlaubt, welche nicht, mit welcher Begründung. Das schafft Transparenz für Nutzer und Argumentationsbasis im Streitfall.
AI Training Opt-out deklarieren: Wo möglich, über robots.txt und Meta-Tags (noai, noimageai) signalisieren. Kein verbindlicher Standard, aber zunehmend von kooperativen Anbietern respektiert.
Logging als Nachweis: Vollständige Access-Logs ermöglichen im Streitfall nachzuweisen, wer wann was gecrawlt hat – und ob ein Opt-out ignoriert wurde.

Wichtig ist die Kombination: Technische Maßnahmen reduzieren Zugriff, rechtliche Maßnahmen schaffen die Argumentationsbasis im Streitfall.

Die offenen Fragen werden sich in den nächsten Jahren durch Gerichtsurteile und regulatorische Konkretisierungen klären. Wer heute schon zwischen erlaubten Suchmaschinen-Bots, KI-Crawlern und aggressiven Scrapern unterscheidet, ist deutlich besser positioniert als wer wartet.