Blockieren, erlauben oder optimieren – die drei Strategien im Vergleich

Dieselbe Frage, drei grundlegend verschiedene Antworten

Sobald klar ist, dass KI-Bots eine eigene Kategorie sind – mit anderen Zielen als Suchmaschinen-Crawler –, stellt sich die naheliegende Folgefrage: Was tun damit?

Die Antworten lassen sich auf drei Grundstrategien reduzieren. Alle drei sind legitim. Keine ist per se richtig oder falsch. Sie folgen jedoch verschiedenen Annahmen darüber, was Sichtbarkeit bedeutet, wie Content-Schutz abgewogen wird, und was das Geschäftsmodell verträgt.

Bevor die drei Strategien verglichen werden, lohnt sich ein genauerer Blick auf die Bots selbst – denn nicht alle KI-Bots verfolgen dasselbe Ziel.

Nicht alle KI-Bots sind gleich

Die pauschale Kategorie „KI-Bot” verdeckt einen relevanten Unterschied: Was ein Crawler mit den Inhalten macht, hängt stark vom Typ ab.

Training Bots sammeln Daten für das Training von Sprachmodellen. GPTBot kann in dieser Rolle auftreten. Blockieren verhindert, dass Inhalte in zukünftige Modellversionen einfließen – hat aber keinen direkten Einfluss auf aktuelle Antworten.

Retrieval Bots / Live-Answer-Bots greifen Inhalte on-demand ab, um sie in Echtzeit in Antworten einzubinden. Perplexitybot und ähnliche Systeme arbeiten so. Diese Bots beeinflussen direkt, ob und wie eine Seite als Quelle zitiert wird. Blockieren wirkt hier unmittelbar auf die KI-Sichtbarkeit.

Search-integrated Bots – wie Bingbot für Copilot oder der Google-Crawler für AI Overviews – kombinieren klassisches Crawling mit KI-gestützter Antwortgenerierung. Hier gelten andere Regeln: Suchmaschinen-Zugang blockieren würde auch das klassische Ranking beschädigen.

Die Konsequenz ist nicht trivial: Blockieren wirkt je nach Bot-Typ unterschiedlich stark. Wer Training Bots aussperrt, schützt Content, verliert aber keine direkte Sichtbarkeit. Wer Retrieval Bots blockiert, verschwindet aus KI-Antworten.

Strategie A: Blockieren

Die konsequenteste Antwort: KI-Bots bekommen keinen Zugang. Das geschieht primär über die robots.txt:

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

Was das bringt:

Content wird nicht von KI-Systemen verarbeitet. Trainingsdaten-Crawler erhalten keine Inhalte. Inhalte bleiben im eigenen Kontrollbereich. Für sehr wertvolle oder einzigartige Inhalte – exklusive Datenanalysen, bezahlpflichtige Inhalte, proprietäres Know-how – ist das eine nachvollziehbare Position.

Was das kostet:

Wer blockiert, existiert in KI-Antworten nicht. Nutzer, die über ChatGPT, Perplexity oder Claude recherchieren, sehen keine Inhalte von blockierten Seiten. Das ist keine theoretische Einschränkung – es geht um ein wachsendes Segment der Informationssuche.

Hinzu kommt: Die robots.txt hat strukturelle Grenzen. Sie kennt keine Authentifizierung, keine echte Zugangskontrolle. Sie regelt Absicht – nicht Durchsetzung. Seriöse KI-Anbieter halten sich daran. Nicht alle Crawler tun das.

Zero-click AI Consumption:

Ein Effekt, den Blockieren nicht verhindert: Wenn Inhalte bereits in Trainingsdaten sind, fließen sie weiter in Antworten ein – ohne Quellennennung, ohne Traffic, ohne Gegenleistung. Dieses Phänomen ist analog zu Zero-click Search bei Google, aber ausgeprägter: KI-Systeme komprimieren, paraphrasieren und verwenden Inhalte, ohne den Ursprung sichtbar zu machen. Wer nicht explizit als Quelle zitiert wird, verliert doppelt – Content wird verbraucht, Sichtbarkeit entsteht trotzdem nicht.

Wann sinnvoll:

Trafficbasierte Monetarisierung (Werbung), bei der Klicks direkt Umsatz bedeuten
Exklusive Inhalte hinter Paywalls, die nicht kostenfrei verarbeitet werden sollen
Branchen mit starken Datenschutz- oder Urheberrechtsanforderungen
Verlage, die aktiv Lizenzgespräche mit KI-Anbietern führen und bis dahin nicht gratis liefern wollen

Blockieren als Übergangslösung:

Für Verlage und Datenanbieter ist Strategie A nicht zwingend eine Dauerlösung. Seriöse KI-Anbieter bieten inzwischen opt-out- und limited-use-Mechanismen an. Selektives Blockieren kann als Verhandlungsposition dienen – man bleibt sichtbar für Suchmaschinen, gibt Content nicht frei, bis Lizenzkonditionen geklärt sind. Token-basierte APIs für Content-Zugang sind ein aufkommender Ansatz, bei dem Zugriff kontrolliert und lizenziert werden kann, anstatt ihn pauschal zu verweigern.

Strategie B: Selektiv erlauben

Der Mittelweg: Bestimmte KI-Bots werden explizit zugelassen, andere blockiert. Dabei orientiert man sich an Reputation, Transparenz und dem Verhalten des jeweiligen Betreibers.

Eine typische robots.txt in diesem Modell:

# Suchmaschinen – immer erlauben
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# KI-Bots seriöser Anbieter – selektiv erlauben
User-agent: GPTBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

# Aggressive Scraper – blockieren
User-agent: PetalBot
Disallow: /

User-agent: AhrefsBot
Disallow: /artikel/

# Unbekannte Bots – Standardregel
User-agent: *
Disallow: /intern/
Disallow: /admin/

Warum das derzeit Best Practice ist:

Selektives Erlauben trennt zwischen Bots, die dokumentierte Richtlinien haben und sich an robots.txt halten, und solchen, die das nicht tun. GPTBot, ClaudeBot und PerplexityBot sind von ihren Betreibern offiziell dokumentiert. Wer sie erlaubt, gibt Inhalte frei – aber an Systeme, die zumindest Absicht zur Einhaltung signalisieren.

Gleichzeitig bleibt Kontrolle erhalten: Bestimmte Verzeichnisse, bestimmte Content-Typen oder bestimmte Bots können gezielt ausgenommen werden.

Cloudflare als Durchsetzungsschicht:

Die robots.txt regelt die Absicht – Cloudflare übernimmt die Durchsetzung. Wer Astro einsetzt, kann die robots.txt-Generierung mit dem astro-crawler-policy Plugin automatisieren: Bot-Regeln, Presets für gängige Szenarien und llms.txt werden dabei zur Build-Zeit erzeugt, ohne manuelle Pflege. Dabei ist der Unterschied zwischen zwei Modi relevant: Bot Detection erkennt verdächtiges Verhalten anhand von Fingerprinting, IP-Reputation und Request-Mustern. Verified Bots ist eine Cloudflare-Whitelist bekannter, legitimer Crawler – darunter GPTBot und andere dokumentierte KI-Bots. Wer sie explizit freischaltet, kann sie gleichzeitig gesondert loggen und rate-limitieren.

Eine Firewall-Regel, die GPTBot gezielt behandelt, sieht in der Cloudflare-Syntax so aus:

(cf.client.bot and http.user_agent contains "GPTBot")

Darauf aufbauend lässt sich Rate Limiting für KI-Bots einrichten – nicht um sie zu blockieren, sondern um das Crawl-Volumen zu steuern und die eigene Infrastruktur zu schützen. Das Ergebnis ist kein einfaches „an/aus”, sondern ein steuerbares System, das sich ähnlich wie ein API-Gateway verhält: Zugang erlaubt, Frequenz kontrolliert, Verhalten protokolliert.

Cloudflare-Logs bieten dabei konkrete Erkenntnisse: nach User-Agent gefiltert lässt sich feststellen, welche KI-Bots eine Seite besuchen, auf welche Pfade sie zugreifen und mit welcher Häufigkeit. Das ist die Datenbasis für fundierte Entscheidungen – nicht nur Bauchgefühl. Die technische Umsetzung im Detail behandelt Teil 3 dieser Serie.

Der Haken:

Selektives Erlauben ist immer noch eine passive Strategie. Man gibt Zugang, aber man optimiert nicht dafür, als Quelle zitiert zu werden. Das ist der Übergang zur dritten Strategie.

Strategie C: Aktiv optimieren

Der dritte Weg geht über das Erlauben hinaus. Das Ziel ist nicht nur, gecrawlt zu werden – sondern als Quelle in KI-Antworten zu erscheinen.

Das ist der Schritt, den viele noch unterschätzen. Die Entscheidung, KI-Bots zuzulassen, ist notwendig, aber nicht hinreichend. KI-Systeme wählen aus, welche Quellen sie zitieren. Nicht jeder gecrawlte Inhalt taucht als Referenz auf.

Klassisches SEO vs. LLM-SEO:

Klassisches SEO optimiert für Rankings: Positionen in Suchergebnislisten, Klicks, Traffic. LLM-SEO zielt auf etwas anderes – darauf, als vertrauenswürdige Quelle in generierten Antworten referenziert zu werden. Ein Artikel, der präzise Fragen beantwortet und semantisch klar strukturiert ist, kann von Sprachmodellen zitiert werden, ohne je auf Seite 1 bei Google zu stehen. Umgekehrt hilft eine gute Suchmaschinenplatzierung allein nicht, wenn der Inhalt für LLMs schwer zu verarbeiten ist.

KI-Bots lesen Kontext, nicht nur Keywords. Semantische Konsistenz, argumentative Klarheit und direkte Aussagen sind entscheidender als Keyword-Dichte.

LLM-freundlicher Content in der Praxis:

Der Unterschied zwischen Inhalten, die zitiert werden, und solchen, die übergangen werden, liegt oft in der Struktur. Lange Einleitungen, vage Formulierungen und Marketing-Umschreibungen sind für Sprachmodelle schwer zu verarbeiten. Was funktioniert:

Definitionen, die direkt einsetzbar sind: „LLM-SEO ist die Optimierung von Inhalten für Referenzierung in KI-Antworten – unabhängig von Suchmaschinen-Rankings.” Entscheidungslogik in klarer Form: „Wann lohnt sich Strategie A statt B?” beantwortet als expliziter Vergleich, nicht als Fließtext. FAQ-Blöcke mit präzisen Antworten, die LLMs direkt als Snippet verwenden können. Listen mit klaren Aussagen statt Aufzählungen von Buzzwords.

Aktive Optimierung bedeutet konkret:

Strukturierte, klar beantwortbare Inhalte statt allgemeiner Überblicks-Texte
Thematische Tiefe statt breiter Abdeckung
Direkte Aussagen statt Marketing-Umschreibungen
Konsistente Kompetenz zu einem Themenbereich, die über mehrere Artikel aufgebaut wird
Maschinenlesbare Formate – Schema.org, JSON-LD und strukturierte FAQ-Abschnitte erhöhen die Chance, in KI-Antworten integriert zu werden
Klare Quellendeklaration – LLMs bevorzugen Inhalte, bei denen Autorenschaft, Datum und Themenkontext eindeutig sind

Ökonomischer Wert der KI-Sichtbarkeit:

Nicht jeder Klick, der über eine KI-generierte Antwort entsteht, lässt sich direkt messen. Aber wenn ChatGPT oder Perplexity eine Quelle nennt, wird sie als autoritativ wahrgenommen – ein semantischer Vertrauenstransfer, der schwer zu erkaufen, aber durch konsequente Inhaltsarbeit erreichbar ist. Für Beratung, Produkte und Dienstleistungen, bei denen Vertrauen vor dem Kauf entsteht, ist das ein relevanter Hebel.

Was das konkret im Content bedeutet, behandelt Teil 4 dieser Serie.

Strategie A: Blockieren Kein Content-Abfluss, aber keine KI-Sichtbarkeit. Geeignet für trafficbasierte Monetarisierung oder exklusive Inhalte.

Strategie B: Selektiv erlauben Kontrolle + Reichweite – aktuell Best Practice für die meisten Publisher und Tech-Seiten.

Strategie C: Aktiv optimieren Als Quelle zitiert werden statt nur gecrawlt zu werden – der Schritt, den viele noch nicht gegangen sind.

Messbarkeit: die offene Flanke

Eine der größten Lücken im LLM-SEO ist die Messbarkeit. Klassisches SEO hat Google Search Console, Rankings, Klickdaten. KI-Sichtbarkeit ist deutlich schwerer zu greifen.

Referrer-Tracking als Ausgangspunkt:

Zugriffe, die von chat.openai.com, perplexity.ai oder claude.ai kommen, tauchen in Analytics-Daten auf – aber selten vollständig. Ein großer Teil der Zugriffe aus KI-Systemen kommt ohne Referrer, weil Nutzer Links kopieren, in neue Tabs öffnen oder auf Mobilgeräten wechseln. Der tatsächliche Anteil von KI-vermitteltem Traffic ist systematisch unterschätzt.

Praktische Maßnahmen:

Cloudflare-Logs nach User-Agent filtern: nicht nur für Bots, sondern auch für Endnutzer-Referrer
UTM-Parameter einsetzen, wo eigene Inhalte in KI-freundlichen Formaten (z.B. Newsletter, Social, llms.txt) verbreitet werden
Markensuchen beobachten: ein Anstieg von Brand Queries nach einem Zeitraum erhöhter KI-Präsenz ist ein indirektes Signal

KPIs für KI-Sichtbarkeit:

Drei Metriken, die sich beobachten lassen, auch wenn kein vollständiges Tracking möglich ist:

AI Referral Traffic – direkter Zugang über bekannte KI-Referrer in Analytics
Cited Mentions – manuelles oder tool-gestütztes Monitoring (z.B. via Brandwatch, Mention oder einfach regelmäßige Abfragen in ChatGPT/Perplexity)
Brand Queries – Suchanfragen nach Marke oder Autor als indirektes Signal für gestiegene Bekanntheit durch KI-Präsenz

Welche Strategie passt wann?

Die zentrale Leitfrage hinter der Strategiewahl lautet: Will ich Traffic oder Einfluss?

Traffic ist die klassische SEO-Logik: Klicks, Seitenaufrufe, Werbeeinnahmen. Einfluss ist die LLM-SEO-Logik: als Quelle zitiert werden, Vertrauen aufbauen, in generierten Antworten präsent sein – ohne zwingend geklickt zu werden.

Wer Traffic braucht, sollte KI-Bots kritisch betrachten. Wer Einfluss will, sollte sie aktiv einladen.

Die konkrete Entscheidung hängt von drei Faktoren ab:

Geschäftsmodell: Lebt die Seite von Werbeeinnahmen, die direkte Klicks brauchen? Dann ist Strategie A oder ein sehr restriktives B sinnvoll. Lebt sie von Anfragen, Beratung oder Produktverkäufen, bei denen Sichtbarkeit als Quelle wertvoll ist? Dann ist B oder C die bessere Wahl.

Content-Art: Sind die Inhalte einzigartig und schwer anderswo zu finden? Dann hat Blockieren mehr Gewicht. Sind sie erklärender oder orientierender Natur? Dann ist Sichtbarkeit als Quelle ein Vorteil.

Ressourcen: Aktive Optimierung (Strategie C) erfordert konsequente Content-Arbeit über Zeit. Wer das nicht stemmen kann, fährt mit selektivem Erlauben (Strategie B) besser als mit einer halbherzigen Optimierungsstrategie.

Situation	Empfehlung
Paywall / Premium-Content	A oder restriktives B
Trafficbasierte Werbung	A
Lead-Gen / Beratung	B → C
Content-Marketing	C
Kaum Ressourcen für Content	B
Aktive Lizenzverhandlungen	A als Übergangslösung

Für die meisten Seiten, die nicht von Klick-Monetarisierung abhängig sind, ist Strategie B als Basis, mit schrittweiser Bewegung in Richtung C, der pragmatischste Weg.

Die Entscheidung ist kein einmaliger Akt

KI wird in der Informationssuche weniger klicken und mehr zusammenfassen. Gewinner dieses Wandels sind Quellen – nicht Seiten. Wer als Quelle wahrgenommen wird, profitiert von Sichtbarkeit, die sich nicht direkt in Klicks niederschlägt, aber Vertrauen und Reichweite aufbaut.

Suchmaschinen und KI-Systeme verschmelzen zunehmend – Chat-basierte Ergebnisse werden mit Web-Quellen verknüpft, Ranking und Reputation rücken näher zusammen. Die Optimierungslogik verschiebt sich langfristig von Positionen zu inhaltlicher Autorität und Content-Struktur.

Das bedeutet: Die Wahl zwischen blockieren, erlauben und optimieren ist kein einmaliger Entscheid, sondern ein laufender Abwägungsprozess. Wer heute selektiv erlaubt, kann morgen mit LLM-SEO beginnen. Wer heute blockiert, behält die Option für Lizenzmodelle offen. Was sich nicht mehr zurückholen lässt, ist verpasste Sichtbarkeit in einem Kanal, der gerade sehr schnell wächst.

Was als nächstes kommt

Strategie B und C brauchen eine technische Grundlage. Wie robots.txt, Cloudflare und Bot-Management-Tools zusammenspielen – und wo die Grenzen dieser Werkzeuge liegen – ist das Thema von Teil 3 dieser Serie.