Wenn neue Seiten nicht mehr in den Index kommen

Warum werden neue Seiten nicht mehr zuverlässig indexiert — und was entscheidet heute darüber? Dieser Artikel zeigt die konkreten Kriterien und wie sich Crawl-Budget gezielt steuern lässt, damit die wichtigen Seiten überhaupt geprüft werden.

Den größeren Zusammenhang — warum Google die Suche und die Search Console gerade umbaut — behandelt der zweite Teil dieser Serie. Hier geht es um die praktische Ebene: die Aufnahme in den Index.

⸻

Die technische Basis muss stimmen

Bevor Inhalt überhaupt bewertet wird, muss eine Seite erreichbar und indexierbar sein. Das ist die Pflicht, kein Wettbewerbsvorteil — aber ohne sie passiert nichts.

Crawlbarkeit heißt: Google kann auf die Seite zugreifen. Konkret bedeutet das:

Die URL ist nicht per robots.txt gesperrt.
Es gibt kein noindex — weder als Meta-Tag noch als X-Robots-Header.
Der Server liefert HTTP 200, keinen 403, 404 oder 500.
Es gibt keine langen Weiterleitungsketten (mehr als drei Weiterleitungen kosten Crawl-Budget und schwächen Signale).

Indexierbarkeit geht einen Schritt weiter — hier geht es darum, ob Google die Seite aufnehmen will. Selbst bei sauberem Zugriff landet eine Seite nur dann im Index, wenn ihr Inhalt keine exakte Kopie anderer Seiten ist, genug Substanz bietet (zu wenig Substanz gilt als „thin content” und wird oft gar nicht aufgenommen) und klar strukturiert ist — mit Überschriften und interner Verlinkung.

⸻

Was sich 2025 verschärft hat: die Qualitätshürde

Der eigentliche Wandel liegt nicht in der Technik, sondern in der Messlatte für Inhalte. Auf der Google Search Central Live in Kanada wurde offiziell bestätigt, dass Google die Mindestanforderungen an Inhalte für eine Indexierung angehoben hat. Google nennt den Grund klar: Die Masse an KI-generierten Inhalten zwingt zu strengerer Filterung bei begrenzten Crawl-Ressourcen.

Drei Kriterien entscheiden heute besonders stark.

Thematische Relevanz und Topical Authority

Inhalte, die zum Kernthema der Domain passen, werden bevorzugt indexiert. Randthemen, die nicht in den thematischen Schwerpunkt einer Site einzahlen, werden zunehmend aussortiert. Eine Domain, die zu allem etwas sagt, baut zu nichts echte Autorität auf.

Originalität und Mehrwert

Google belohnt eigenständigen Inhalt — nicht die Umformulierung dessen, was es schon gibt. Bei sensiblen Themen (Gesundheit, Finanzen, alles unter YMYL) kommt E-E-A-T hinzu: nachweisbare Erfahrung, Expertise, Autorität und Vertrauenswürdigkeit.

KI-Inhalte ohne eigenständigen Wert

KI-generierter Content ist für Google kein Richtlinienverstoß an sich — aber die Qualitätsanforderungen sind hoch. Google weist selbst darauf hin, dass KI-Content häufig keinen eigenständigen Mehrwert bietet: Er bereitet meist nur auf, was andere Websites schon gesagt haben, und hat es entsprechend schwer zu ranken. Massenproduktion allein für Rankings wertet Google als Spam.

Die Konsequenz daraus: Diese verschärfte Hürde trifft nicht nur automatisch erzeugte Texte. Auch echter, sorgfältig geschriebener Content fällt durch, wenn er thematisch isoliert steht oder schwach eingebunden ist.

Auch Aktualität allein hilft nicht: Neue Seiten werden nicht automatisch bevorzugt. Entscheidend ist, ob sie bestehende Inhalte sinnvoll ergänzen — oder nur duplizieren.

⸻

Ohne Signale wird nichts gefunden

Selbst guter Inhalt bleibt unsichtbar, wenn Google ihn nicht entdeckt. Die Suchmaschine findet die meisten Seiten über Links — interne wie externe — und über die Sitemap. Diese Signale wiegen unterschiedlich schwer.

Am stärksten wiegt die interne Verlinkung: Sie signalisiert, welche Seiten wichtig sind. Verwaiste Seiten ohne eingehende interne Links werden seltener indexiert. Eine flache Struktur hilft dabei — Seiten tief in der Verzeichnishierarchie (etwa /blog/2024/05/...) haben schlechtere Chancen als Seiten nah an der Startseite.

Danach folgen externe Links auf eine URL: Sie erhöhen die Chance deutlich, dass eine Seite gefunden und aufgenommen wird.

Eine XML-Sitemap spielt eine unterstützende Rolle — sie erhöht die Chance, dass neue Seiten entdeckt werden. Ohne Sitemap bleibt unsicher, ob und wann Google eine neue Seite überhaupt findet; das kann schnell gehen oder sich unbestimmt lange hinziehen.

⸻

Crawl-Budget ist eine begrenzte Ressource

Google crawlt nicht alle Seiten einer Site gleichzeitig und garantiert auch keine vollständige Indexierung — selbst bei technisch einwandfreien Seiten. Während früher oft ein großer Teil der Seiten einer Site im Index landete, liegt dieser Anteil heute in vielen Projekten deutlich niedriger.

Für kleine Sites mit unter etwa 10.000 URLs ist das Crawl-Budget meist kein Engpass, solange die Technik sauber ist. Bei größeren Sites wird die Steuerung des Budgets zur eigenen Aufgabe — Google dokumentiert das in einem eigenen Leitfaden für große Websites.

⸻

Die Indexierungsstatus in der Search Console lesen

Der Bericht zur Seitenindexierung zeigt, wo eine URL im Prozess steht — und vor allem, ob ein Ausschluss technische oder inhaltliche Gründe hat. Auf einen Status kommt es dabei besonders an; er steht in der Übersicht weiter unten. Die wichtigsten im Überblick:

Status	Bedeutung
Indexed	Seite ist im Index
Discovered – currently not indexed	URL bekannt, aber noch nicht gecrawlt (Budget oder Priorität)
Crawled – currently not indexed	Gecrawlt, aber nicht aufgenommen — meist ein Qualitätsproblem
Page with redirect	Seite leitet weiter
Duplicate without user-selected canonical	Google wählt selbst einen Canonical, die URL bleibt außen vor
Duplicate, Google chose different canonical	Google hat einen anderen Canonical gewählt als angegeben
Excluded by ‘noindex’ tag	Explizit durch `noindex` ausgeschlossen

Der aufschlussreichste Status ist Crawled – currently not indexed: Google hat die Seite gesehen, geprüft — und sich gegen die Aufnahme entschieden. Das ist kein technischer Fehler, sondern ein Qualitätsurteil.

⸻

Crawl-Effizienz gezielt verbessern

Wenn Budget knapp ist, sollte es nicht für unwichtige oder fehlerhafte Seiten verbrannt werden. Die wirksamsten Hebel, nach Bereichen sortiert:

Architektur und interne Links: Die Struktur flach halten — maximal drei bis vier Klicks von der Startseite zu jeder wichtigen Seite — und wichtige Seiten gezielt verlinken: aus Navigation, Footer und thematisch passenden Artikeln, mit konsistentem Linktext für identische Ziele.

Technische Hygiene: Fehlerseiten (404, 403, 5xx) regelmäßig im Indexierungsbericht prüfen und beheben; jeder Fehlversuch kostet Budget. Duplikate vermeiden und Canonical-Tags korrekt auf die Hauptversion setzen. Die XML-Sitemap sauber halten — nur erreichbare Status-200-HTML-Seiten mit selbstreferenzierendem Canonical, eingereicht in der Search Console.

Ausschlüsse und Priorisierung: Unwichtige Seiten konsequent aussperren — Login-Bereiche, interne Suchergebnisse, Filter- und Sortier-URLs sowie Session-Parameter per noindex oder robots.txt.

Server und Performance: Schnelle Antwortzeiten sichern (Ziel unter zwei Sekunden), keine Timeouts bei Crawl-Versuchen — Crawler haben pro Site nur ein begrenztes Zeitfenster.

⸻

Crawl-Aktivität in der Search Console prüfen

Ein direktes „Crawl-Budget = X URLs/Tag” zeigt Google nicht. Aber der Bericht Crawling-Statistiken macht die Crawl-Aktivität der letzten 90 Tage sichtbar, aus der sich das Budget ableiten lässt.

Zu finden ist er in der Search Console unter Einstellungen → Crawling-Statistiken (alternativ über „Vorherige Tools und Berichte”). Dort siehst du:

die Gesamtzahl der Crawl-Anfragen pro Tag,
die durchschnittliche Server-Antwortzeit,
die Verteilung nach Antwortcodes (200, 301, 404, 5xx),
die durchschnittliche Größe der heruntergeladenen Seiten.

Das aussagekräftigste Muster: Gehen die Crawl-Anfragen zurück, obwohl neue Inhalte veröffentlicht werden, deutet das auf ein Crawl-Budget- oder Qualitätsproblem hin. Steigende Antwortzeiten oder eine wachsende Fehlerquote sind Warnsignale, dass Budget verschwendet wird.

⸻

Exkurs: Indexierung gehört in die Nachbetreuung

In der laufenden Betreuung einer Website wird dieser Blick zu selten gemacht. Dabei gehört er dazu: regelmäßig prüfen, ob der Crawler auf Probleme stößt und was tatsächlich im Index gelandet ist — und bei allem, was nicht aufgenommen wurde, aus Betreiberperspektive ehrlich nachfragen, warum nicht.

Technische Ursachen lassen sich meist schnell finden und beheben: ein falsch gesetzter Canonical, eine Seite mit Fehlercode, eine verwaiste URL ohne interne Links. Häufiger aber liegt das Problem im Inhalt selbst — dünne, austauschbare, oft halbautomatisch erzeugte Seiten, für die sich der Begriff „Slop” eingebürgert hat. Genau das sortiert Google zunehmend aus. Wenn ganze Bereiche einer Site nicht in den Index kommen, lautet die ehrliche Frage selten „Was ist technisch kaputt?”, sondern „Trägt dieser Inhalt überhaupt etwas bei?”

⸻

Einordnung

Indexierung ist kein Standard mehr, sondern eine Hürde. Garantiert war sie nie — aber lange selbstverständlich. Wer heute neue Seiten veröffentlicht, konkurriert nicht nur um Rankings, sondern zuerst um die Aufnahme in den Index.

Die Hebel sind dabei weniger technischer Natur, als viele erwarten. Saubere Crawlbarkeit ist Pflicht, aber sie reicht nicht. Entscheidend ist, ob ein Inhalt eigenständigen Wert hat, zum thematischen Profil der Domain passt und gut genug eingebunden ist, dass Google ihn als relevant einstuft. Genau das ist die praktische Seite derselben Entwicklung: Suche bewertet weniger einzelne Dokumente und mehr zusammenhängende, glaubwürdige Themenräume.