Wie LLMs lernen – und warum das kein Denken ist

Die ersten zwei Teile dieser Serie haben beschrieben, was passiert, wenn ein Modell läuft: wie es Token für Token generiert und was in den Gewichten gespeichert ist. Aber wo kommen diese Gewichte her? Ein frisches Modell – eines, das noch gar nicht trainiert wurde – ist nutzlos. Es kennt keine Sprache, kein Wissen, keine Strukturen. Erst durch Training entstehen die Muster, die ein Modell zu dem machen, was es ist.

Dieser Artikel erklärt, wie dieser Prozess konkret abläuft und was dabei gelernt wird – und was eben nicht.

Was wird optimiert?

Das Lernziel: nächstes Token vorhersagen

Das grundlegende Trainingsverfahren für Sprachmodelle heißt Next-Token-Prediction: Das Modell bekommt einen Text und muss vorhersagen, welches Token als nächstes kommt. Aus „Die Hauptstadt von Frankreich ist” soll „Paris” folgen. Aus „def calculate(” soll ein sinnvoller Funktionsrumpf folgen.

Formal optimiert das Training die Wahrscheinlichkeit des nächsten Tokens gegeben den bisherigen Kontext – das Modell lernt eine bedingte Wahrscheinlichkeitsverteilung über Sprache. Technisch geschieht das durch Minimierung der Cross-Entropy-Loss: Die Differenz zwischen der vorhergesagten Wahrscheinlichkeitsverteilung und dem tatsächlich nächsten Token wird so klein wie möglich gemacht.

Das klingt mechanisch. Es ist erstaunlich mächtig. Um Next-Token-Prediction gut zu machen, muss ein Modell implizit sehr viel lernen: Grammatik, Satzstrukturen, Stilregister, Faktenwissen, Codekonventionen, mathematische Notation, Zusammenhänge zwischen Konzepten. All das – nicht als explizites Regelwerk, sondern als statistische Muster in Milliarden von Gewichten.

Tokenisierung: Wörter sind nicht Token

Damit das Lernen funktioniert, braucht es Daten in enormem Umfang. Für heutige Modelle sind das Billionen von Token aus dem Web, digitalisierten Büchern, wissenschaftlichen Artikeln, Quellcode und Wikipedia. Diese Texte werden zunächst tokenisiert – in kleine Einheiten zerlegt, mit denen das Modell rechnen kann.

Ein Token ist dabei nicht dasselbe wie ein Wort. Moderne Tokenizer nutzen Subword-Verfahren wie Byte-Pair-Encoding (BPE) oder SentencePiece: Häufige Wörter werden als ein Token kodiert, seltene Wörter in mehrere Teile zerlegt. „Paris” kann ein einzelnes Token sein – „Pariserin” möglicherweise drei. Das hat konkrete Auswirkungen:

Rechtschreibung: Das Modell arbeitet mit Token-Sequenzen, nicht mit Buchstaben. Aufgaben auf Zeichenebene (Buchstaben zählen, Anagramme) sind für LLMs strukturell schwieriger.
Seltene Begriffe: Fachbegriffe, Namen und nicht-englische Wörter werden oft in viele kleine Tokens zerlegt – was ihre Repräsentation im Modell weniger stabil macht.
Zahlen: Zahlen werden oft ziffer-für-ziffer tokenisiert. Das erklärt, warum LLMs bei Rechenaufgaben oft scheitern – sie sehen keine Zahlen, sondern Zeichenfolgen.

Warum Generalisierung überhaupt funktioniert

Das überraschende an Next-Token-Prediction: Ein Modell, das nur lernt, Texte fortzusetzen, entwickelt plötzlich Fähigkeiten wie Code-Debugging, mathematisches Erklären oder Übersetzungen – ohne dafür explizit trainiert worden zu sein.

Der Grund liegt in der Struktur der Daten: Sprache, Code und viele Wissensdomänen teilen statistische Muster. Ein Text über Quantenmechanik verwendet Satzstrukturen wie ein Text über Geschichte – und beide folgen Mustern, die das Modell aus Milliarden anderer Texte kennt. Das Modell lernt keine einzelnen Fakten, sondern abstrahiert Muster, die in vielen Kontexten wiederverwendbar sind.

Diese latenten Repräsentationen entstehen automatisch als Nebenprodukt des Trainingsziels. Sie sind der Grund, warum ein Modell Aufgaben lösen kann, die es nie explizit gesehen hat – und gleichzeitig bei Aufgaben scheitert, für die die relevanten Muster im Trainingskorpus fehlen.

Wie wird optimiert?

Die Architektur: Transformer und Self-Attention

Bevor das Modell überhaupt trainiert werden kann, braucht es eine Architektur – eine Struktur, die festlegt, wie aus Eingabe-Token eine Ausgabe entsteht. Heutige LLMs basieren fast ausnahmslos auf Transformer-Netzen.

Das zentrale Konzept dabei ist Self-Attention: Für jedes Token berechnet das Modell, welche anderen Tokens im aktuellen Kontext relevant sind – und gewichtet sie entsprechend. „Bank” in „Er saß auf der Bank” bekommt einen anderen Kontext als „Bank” in „Die Bank verwaltet das Kapital”. Diese dynamischen Beziehungen entstehen nicht durch feste Regeln, sondern durch gelernte Gewichtungsmatrizen.

Transformer haben keine feste Speicherstruktur im klassischen Sinne – kein Datenbankschema, keine adressierbaren Fakten. Wissen ist verteilt über Milliarden von Gewichten und wird bei jeder Inference dynamisch über Attention-Mechanismen aktiviert.

Der Lernprozess: Vorhersage, Fehler, Anpassung

Der eigentliche Lernzyklus läuft immer gleich ab:

Forward Pass Das Modell verarbeitet eine Eingabe durch alle Transformer-Schichten und macht eine Vorhersage: Welches Token kommt als nächstes?

Loss berechnen Die vorhergesagte Wahrscheinlichkeitsverteilung wird mit dem tatsächlichen nächsten Token verglichen. Der Cross-Entropy-Loss misst den Unterschied.

Backpropagation Der Fehler wird rückwärts durch alle Schichten propagiert: Welche Gewichte haben wie viel zu diesem Fehler beigetragen?

Gradient Descent Alle Gewichte werden minimal in die Richtung verschoben, die den Loss reduziert. Dann beginnt der nächste Zyklus.

Dieser Prozess läuft Milliarden von Mal auf tausenden GPUs parallel – trotzdem dauern Training und Inference großer Modelle Wochen und kosten Millionen Euro. Wichtig: Training und Inference sind verschiedene Phasen. Beim Training werden Gewichte angepasst; bei der Inference (dem tatsächlichen Betrieb) sind die Gewichte eingefroren, und das Modell generiert Ausgaben durch Sampling – mit Parametern wie Temperatur und Top-k, die beeinflussen, wie deterministisch oder kreativ die Ausgaben sind.

Was kommt dabei raus?

Von rohem Training zu nützlichem Assistenten

Das Pretraining produziert ein Modell, das Texte fortsetzt – aber noch kein hilfreicher Assistent ist. Auf die Frage „Erkläre mir Quantenmechanik” würde es möglicherweise eine ähnliche Frage generieren, weil Frage-Antwort-Strukturen im Trainingstext nur eine von vielen Mustern sind.

Zwei weitere Stufen machen daraus einen brauchbaren Assistenten:

Supervised Fine-tuning (SFT): Das Modell wird auf einer kuratierten Menge von Beispielen weitertrainiert, die zeigen, wie gute Antworten auf Anfragen aussehen. Menschliche Annotoren schreiben Beispiele; das Modell lernt dieses Format.

Reinforcement Learning from Human Feedback (RLHF): Menschen bewerten Modellantworten. Aus diesen Bewertungen entsteht ein Reward Model – ein Modell, das vorhersagt, welche Antworten besser bewertet werden. Das LLM wird dann so optimiert, dass es laut diesem Reward Model gute Antworten produziert.

Was das Modell wirklich lernt

Next-Token-Prediction auf Billionen Token produziert ein Modell mit bemerkenswerten Fähigkeiten. Es kann überzeugend schreiben, Code debuggen, Texte zusammenfassen, Konzepte erklären. Aber was es dabei strukturell nicht lernt:

Kein explizites Weltmodell: LLMs besitzen kein konsistentes, unabhängig abfragbares Abbild der Realität. Stattdessen enthalten sie implizite, verteilte Repräsentationen von Weltwissen – die jedoch nicht stabil oder in sich überprüfbar sind. Ob das ein „schwaches Weltmodell” ist oder gar keines, ist in der Forschung umstritten.
Keine Fakten im klassischen Sinn: Was wie eine Tatsache klingt, ist ein statistisch wahrscheinlicher Satz – kein abgerufener Eintrag aus einer Datenbank.
Keine Kausalität: Das Modell lernt „B folgt häufig auf A” – nicht „A verursacht B”. Das ist ein subtiler, aber entscheidender Unterschied.
Kein persistentes Gedächtnis: Was außerhalb des Kontextfensters liegt, existiert für das Modell nicht. Heutige Modelle haben Kontextfenster von einigen zehntausend bis mehreren hunderttausend Token – aber auch das ist eine endliche, technische Grenze.

Was fehlt strukturell?

Warum das kein Denken ist

Das klingt nach einer philosophischen Debatte. Es ist eine technische. Denken – im Sinne von Problemlösen, Planen, mehrstufigem Schlussfolgern – erfordert Fähigkeiten, die ein LLM strukturell nicht hat.

Arbeitsgedächtnis: Wenn ein Mensch ein komplexes Problem löst, hält er Zwischenergebnisse im Kopf, verändert sie, verwirft Wege. Ein LLM hat nur den Kontext. Zwischenzustände müssen in die Ausgabe geschrieben werden, sonst sind sie weg. Das ist der Grund, warum Chain-of-Thought-Prompting funktioniert: nicht weil das Modell „jetzt denkt”, sondern weil mehr Text im Kontext als Arbeitsgedächtnis-Ersatz dient.

Kausalität statt Korrelation: Das Modell hat gelernt, was statistisch zusammen vorkommt. Bei bekannten Mustern funktioniert das gut. Bei neuartigen Problemstellungen, die nicht gut im Trainingskorpus vertreten sind, bricht die Scheinkausalität schnell zusammen.

Keine Überprüfung: Menschen prüfen Schlussfolgerungen gegen ihr Weltmodell. Ein LLM produziert, was wahrscheinlich klingt. Wenn eine falsche Zwischenannahme in den Output einfließt, baut alles Weitere darauf auf – ohne Selbstkorrektur.

Halluzinationen: kein Bug, sondern Architektur

Wenn ein LLM ein falsches Datum, einen erfundenen Autor oder eine nicht existierende Studie produziert, ist das kein Fehler, der mit mehr Training behoben wird. Eine Halluzination entsteht nicht, weil das Modell „rät” – sondern weil es die wahrscheinlichste Fortsetzung generiert, unabhängig davon, ob diese mit der Realität übereinstimmt. Es gibt keinen internen Wahrheitscheck, der diesen Prozess unterbricht. Mehr Training reduziert Halluzinationen in bekannten Bereichen, löst aber nicht das strukturelle Problem.

Was das für die Praxis bedeutet

Diese Grenzen bedeuten nicht, dass LLMs nutzlos sind – sie sind bei vielen Aufgaben außerordentlich leistungsfähig. Ein einfaches Orientierungsraster:

Gut geeignet:

Texttransformationen (umformulieren, zusammenfassen, übersetzen)
Pattern Matching auf bekannten Strukturen (Code nach vorhandenen Konventionen schreiben, Refactoring)
Konzepte erklären, die im Training gut abgedeckt waren
Strukturierte Ausgaben aus unstrukturierten Eingaben

Kritisch zu prüfen:

Fakten mit hohem Präzisionsanspruch (Jahreszahlen, Namen, Quellen)
Rechtliche, medizinische oder sicherheitskritische Aussagen
Langfristige Planung über viele Schritte
Offene Fragen ohne klare Antwort im Trainingskorpus

Das ist kein Zufall – es ist eine direkte Folge davon, wie Training funktioniert. Gute LLM-Nutzung bedeutet, bekannte Strukturen und klaren Kontext zu liefern. Schlechte Nutzung bedeutet, offene Fragen mit hohem Wahrheitsanspruch ohne Verifikation zu stellen.

Warum Modelle trotzdem besser werden

Trotz dieser strukturellen Grenzen werden LLMs kontinuierlich besser. Nicht weil sie „lernen zu denken”, sondern aus drei Gründen:

Skalierung: Größere Modelle approximieren feinere statistische Strukturen. Scaling Laws zeigen, dass Fähigkeiten mit Modellgröße, Datenmenge und Rechenaufwand systematisch zunehmen – oft auf nichtlineare Weise (sogenannte emergente Fähigkeiten).

Bessere Daten: Qualitativ hochwertigere, kuratiertere Trainingsdaten verbessern die Repräsentation in Schlüsselbereichen. Synthetische Daten und gezielt erzeugte Reasoning-Traces erweitern den Trainingskorpus über das öffentlich verfügbare Web hinaus.

Bessere Alignment-Techniken: Verbesserte RLHF-Varianten, Constitutional AI und direktes Präferenz-Optimieren (DPO) machen Modelle präziser in ihren Ausgaben – nicht strukturell anders, aber praktisch brauchbarer.

Das Ergebnis: Modelle werden bei mehr Aufgaben besser – aber die strukturellen Grenzen (kein Weltmodell, kein Arbeitsgedächtnis, keine echte Kausalität) verschieben sich dadurch nicht grundlegend.

Einordnung

Training ist nicht Lernen im menschlichen Sinn – es ist Optimierung auf ein statistisches Ziel. Was dabei entsteht, ist beeindruckend: ein System, das Sprache, Wissen und Strukturen so gut komprimiert hat, dass es für Millionen von Aufgaben nützlich ist.

Aber es ist kein denkendes System. Fähig – ja. Begrenzt – strukturell. Wer die Grenze kennt, kann das Werkzeug richtig einsetzen. Wer sie ignoriert, vertraut dem Modell dort, wo Vertrauen gefährlich ist.

Teil 4 dieser Serie ordnet ein, wo heutige LLMs auf der Skala möglicher KI-Systeme stehen und was formale Definitionen von KI und AGI über den aktuellen Stand sagen.