Skalierung, Emergenz und warum Benchmarks trügen

Wenn man KI-Entwicklung in den letzten Jahren beobachtet hat, fällt ein Muster auf: Immer größere Modelle, immer bessere Ergebnisse, immer höhere Benchmark-Scores. Daraus leiten viele eine einfache Schlussfolgerung ab: Mehr ist besser. Mehr Parameter, mehr Daten, mehr Rechenleistung – und die KI wird intelligenter.

Drei Dinge werden dabei oft vermischt: Skalierung (wie Modelle größer werden), Fähigkeiten (was dabei plötzlich möglich wird) und Messung (wie wir Fortschritt erfassen). Jeder dieser Bereiche folgt eigenen Regeln. Wer nur eine dieser Ebenen kennt, zieht falsche Schlüsse.

Was Scaling Laws aussagen

2020 veröffentlichte ein Team von OpenAI ein einflussreiches Paper über neuronale Skalierungsgesetze. Die Kernaussage: Die Leistung von Sprachmodellen verbessert sich vorhersehbar mit drei Faktoren – mehr Rechenleistung (Compute), mehr Trainingsdaten und mehr Parameter. Und zwar nach einer Potenzfunktion: Wenn man den Compute verzehnfacht, verbessert sich die Modellleistung um einen vorhersehbaren Betrag.

Das war eine bedeutende Erkenntnis. Sie bedeutete: KI-Fortschritt ist planbar. Wenn ich weiß, wie viel Compute ich einsetzen kann, kann ich ziemlich genau vorhersagen, wie gut das Modell wird. Kein Trial-and-Error, sondern eine nachvollziehbare Rechnung.

Chinchilla: die wichtige Korrektur

2022 zeigte eine Studie von Google DeepMind, bekannt als Chinchilla-Paper, dass die bisherigen Modelle falsch optimiert waren. Die These: Für ein gegebenes Rechenbudget sollten Parameter und Trainingsdaten proportional wachsen. Frühere Modelle wie GPT-3 hatten zu viele Parameter und wurden auf zu wenig Daten trainiert.

Chinchilla selbst war kleiner als GPT-3 (70 Milliarden statt 175 Milliarden Parameter), aber auf viermal mehr Daten trainiert – und übertraf GPT-3 auf den meisten Benchmarks. Die Schlussfolgerung: Compute-Effizienz ist mindestens so wichtig wie rohe Größe.

Das hatte praktische Konsequenzen: Llama, Mistral und andere Modelle der zweiten Generation wurden deutlich kleiner gebaut, aber auf viel mehr Daten trainiert – und erreichten damit für Consumer-Hardware zugängliche Größen bei vergleichbarer Leistung.

Zwei Achsen der Skalierung

Die ursprünglichen Scaling Laws beschreiben Pretraining: Das Modell liest riesige Mengen Text und lernt Muster. Das ist die erste Achse – und sie war lange die einzig diskutierte. Inzwischen gibt es eine zweite, die mindestens genauso viel Wirkung entfaltet: Post-Training.

Pretraining-Skalierung bedeutet: mehr Parameter, mehr Daten, mehr Compute während des Trainings. Post-Training-Skalierung bedeutet: das fertig vortrainierte Modell durch RLHF, DPO, Tool-Use-Training oder Reinforcement Learning weiter zu verbessern, ohne neue Pretraining-Daten.

Der Unterschied ist bedeutsam, weil viele Fortschritte der letzten Jahre nicht aus größeren Modellen stammten, sondern aus besserem Post-Training. Laut einer Analyse des KI-Forschers Nathan Lambert war 2024 das erste Jahr, in dem Leistungsgewinne primär durch Post-Training und weniger durch Pretraining kamen. Llama 3.1 hat allein für Post-Training mehr als 50 Millionen Dollar investiert – bei einer 200-köpfigen Spezialistengruppe. Ein einziger Post-Training-Durchlauf verbesserte den MMLU-Score um fast 2,5 Punkte, ohne eine einzige zusätzliche Pretraining-Stunde.

Pretraining Lesen von Billionen Token – Modell lernt Sprache, Wissen, Zusammenhänge. Skalierung durch: mehr Parameter, mehr Daten, mehr Compute.

Post-Training RLHF, DPO, Tool-Use, Reasoning-Training. Modell lernt nützlich, sicher und zuverlässig zu antworten. Skalierung durch: mehr Feedback-Daten, bessere Reward-Modelle, längere Trainingsphasen.

Inferenz Das finale Modell antwortet. Hier beginnt die dritte Skalierungsachse: mehr Compute beim Antworten selbst.

Inference-Time Compute: denken kostet Rechenzeit

Neben Pretraining und Post-Training hat sich eine dritte Skalierungsachse etabliert: Das Modell bekommt beim Antworten mehr Rechenzeit. Statt sofort eine Antwort zu generieren, „denkt” es länger.

Die bekanntesten Ansätze:

Self-Consistency (Wang et al., 2022): Statt einer Antwort werden mehrere verschiedene Denkpfade gesampelt. Am Ende gewinnt die häufigste Antwort per Mehrheitsvotum. Ergebnis auf GSM8K (Mathe-Benchmark): +17,9 Prozentpunkte gegenüber einfachem Sampling.

Tree-of-Thought: Das Modell konstruiert einen Baum möglicher Denkwege und durchsucht ihn systematisch – ähnlich wie ein Schachcomputer mehrere Züge im Voraus berechnet.

OpenAI o1/o3: Keine neuen Modellarchitekturen, sondern mehr Inferenz-Compute. Für o1-Klasse-Aufgaben verbessert 100-fach mehr Inferenz-Compute die Leistung von 20 auf 80 Prozent – effizienter als die gleiche Investition ins Training.

Das hat wirtschaftliche Konsequenzen: Trainingskosten sinken relativ, Inferenzkosten steigen. Laut Epoch-AI-Prognosen wird Inferenz bis 2029 rund 65 Prozent des KI-Gesamtcomputes ausmachen. Der Tradeoff ist dabei unvermeidbar: mehr Qualität bedeutet mehr Latenz und höhere Kosten pro Anfrage.

Emergente Fähigkeiten: was sich plötzlich zeigt

Ein faszinierendes Phänomen bei großen Modellen: Bestimmte Fähigkeiten erscheinen scheinbar aus dem Nichts, sobald eine bestimmte Modellgröße überschritten wird. Kleine Modelle können mehrstufige Rechenaufgaben kaum lösen; ab einer gewissen Größe funktioniert es plötzlich. Das nennt man emergente Fähigkeiten.

Wei et al. (2022) dokumentierten dieses Phänomen systematisch. Chain-of-Thought-Reasoning, arithmetische Aufgaben, mehrsprachige Übersetzung – sie alle zeigen diesen Schwellencharakter: vorher kaum, danach deutlich besser.

Warum passiert das? Eine Interpretation: Die Fähigkeiten waren latent vorhanden, aber die Metrik hat sie nicht erfasst. Eine andere: Die Modelle lernen nach und nach Teilfähigkeiten, die erst ab einer bestimmten Kombination zu beobachtbarer Leistung führen.

Wo Skalieren an seine Grenzen stößt

Das naive Bild – immer mehr, immer besser – hat strukturelle Grenzen. Die lassen sich in vier Kategorien einteilen.

Physikalische Grenzen

Rechenoperationen brauchen Energie und Hardware. Das Training großer Modelle verbraucht inzwischen Mengen elektrischer Energie, die nationale Infrastrukturprojekte erfordern. Die Investitionen in Rechenzentren wachsen exponentiell – aber Energie und Fläche sind endlich. Irgendwann stoßen selbst gut kapitalisierte Unternehmen an physikalische Obergrenzen, die sich nicht durch Kapital überwinden lassen.

Datengrenzen

Lange hieß es, der Internets Text gehe aus. Präziser ist: Hochwertige Daten gehen aus – rohe Daten gibt es weiter im Überfluss. Was fehlt, sind kuratierte, konsistente, faktisch verlässliche Texte in ausreichender Menge.

Synthetische Daten – von Modellen generierte Trainingsdaten – sind ein möglicher Ausweg. Microsofts Phi-Modelle zeigten, dass mit 1,3 Milliarden Parametern und rund 7 Milliarden Token gezielt ausgewählter „Lehrbuch-Qualität” Modelle entstehen können, die 10-mal größere Modelle auf Coding-Benchmarks übertreffen. Datenqualität schlägt Datenmenge.

Das Risiko dabei: Model Collapse. Shumailov et al. zeigten in Nature 2024, dass rekursiv auf synthetischen Daten trainierte Modelle irreversibel degenerieren – seltene Muster verschwinden, die Verteilung schrumpft. Bei einem Experiment mit mittelalterlicher Architektur generierte das Modell nach neun Trainingsrunden auf eigenen Outputs nur noch Beschreibungen von Jackrabbits. Synthetische Daten funktionieren als Ergänzung zu echten Daten – nicht als Ersatz.

Ökonomische Grenzen

Leistungsgewinne pro verdoppeltem Compute werden kleiner. Die Sprünge von GPT-2 zu GPT-3 waren dramatisch sichtbar. Die wahrgenommenen Sprünge zwischen nachfolgenden Frontier-Generationen werden kleiner – bezogen auf allgemeine Fähigkeiten. Irgendwann sind die Kosten eines weiteren Trainingsruns nicht mehr durch entsprechend größere Fähigkeitsgewinne gerechtfertigt.

Architektonische Grenzen

Aktuelle Transformer-Architekturen haben strukturelle Eigenschaften, die nicht unbegrenzt skalieren. Der Attention-Mechanismus wächst quadratisch mit der Kontextlänge. Längere Kontextfenster sind teuer; das Modell vergisst innerhalb langer Kontexte trotzdem. Was nach den Transformers kommt – hybride Architekturen, State-Space-Modelle wie Mamba, neuronale Speichermechanismen – ist noch nicht entschieden.

Von Skalierung zu Messung

Wenn Skalierung planbar ist, stellt sich automatisch die nächste Frage: Woran messen wir eigentlich Fortschritt? Die Antwort der Branche sind Benchmarks – und diese Antwort hat fundamentale Probleme.

Was Benchmarks messen

Die meisten KI-Fortschrittsberichte basieren auf Benchmarks: standardisierte Testsets, an denen Modelle gemessen werden. Die bekanntesten:

MMLU (Massive Multitask Language Understanding): 57 Fachgebiete, Multiple-Choice-Fragen
HumanEval: Code-Generierung, ob Funktionen korrekt implementiert werden
MATH: Mathematische Aufgaben verschiedener Schwierigkeitsgrade
GPQA: Expertenfragen aus Physik, Biologie, Chemie

Diese Benchmarks messen echte Fähigkeiten – innerhalb ihres eng definierten Rahmens. Ein Modell mit 90 % auf MMLU kann tatsächlich viele Wissensfragen beantworten. Das Problem liegt woanders.

Warum Benchmarks trügen

Datenkontamination: Benchmarks werden öffentlich veröffentlicht. Die Trainingsdaten moderner Modelle umfassen große Teile des Internets – und damit oft auch die Benchmark-Fragen selbst. Ein Modell, das MMLU-Fragen im Training gesehen hat, löst sie nicht durch Verstehen, sondern durch Wiedererkennen. Wie groß dieser Effekt ist, lässt sich kaum exakt messen.

Benchmark-Overfitting: Auch ohne direkten Datenleck werden Modelle indirekt auf Benchmarks optimiert. RLHF-Daten, Fine-tuning-Daten, die Auswahl von Evaluierungsmetriken während der Entwicklung – all das orientiert sich an bekannten Benchmarks. Das Ergebnis: Modelle, die auf Benchmarks sehr gut abschneiden, aber in der Praxis anders verhalten.

Goodhart’s Law: Der Ökonom Charles Goodhart formulierte es prägnant: „Wenn eine Maßzahl zum Ziel wird, hört sie auf, eine gute Maßzahl zu sein.” Sobald die KI-Branche MMLU als Maßstab für Intelligenz nimmt, wird MMLU optimiert – nicht die zugrundeliegende Fähigkeit. MMLU ist inzwischen saturiert: Frontier-Modelle überschreiten den geschätzten menschlichen Experten-Wert von 89,8 %, und der Benchmark wurde durch MMLU-Pro ersetzt – der sich ebenfalls seiner Sättigung nähert.

Enge Aufgabendefinition: Benchmarks messen, was messbar ist. Robustheit, Transfer auf neue Probleme, konsistentes Verhalten unter Variation, ehrliches Zugeben von Unwissen – das sind schwer zu standardisierende Eigenschaften, die in keinem gängigen Benchmark gut erfasst werden.

Die Leaderboard-Illusion

Kleine Prozentpunkt-Unterschiede zwischen Modellen werden regelmäßig überinterpretiert. Oft liegen Unterschiede innerhalb der statistischen Varianz – sie sind kein echter Hinweis auf Überlegenheit. Dazu kommt: Prompting beeinflusst Ergebnisse massiv. Forschungen zur Prompt-Sensitivität zeigen erhebliche Leistungsunterschiede desselben Modells bei minimal veränderten Formulierungen.

Ein konkretes Beispiel: Der Chatbot Arena von LMSYS nutzt pairwise Human-Preference-Votes als Alternative zu akademischen Benchmarks. Das Prinzip ist sinnvoll. Aber auch hier gibt es Verzerrungen: Meta reichte für Llama 4 eine speziell optimierte „Experimental”-Variante ein, die nicht dem öffentlich veröffentlichten Modell entsprach. Hohe Rankings für nicht-veröffentlichte Modell-Varianten sind für normale Nutzer bedeutungslos.

Closed vs. Open Evaluation

Viele Benchmark-Ergebnisse sind nicht reproduzierbar. Die genauen Prompts, Systemnachrichten, Sampling-Parameter und verwendeten Modell-Varianten werden nicht offengelegt. Unternehmen testen intern mit vielen Konfigurationen und veröffentlichen die besten Ergebnisse. Unabhängige Organisationen wie EleutherAI oder das HELM-Projekt liefern systematischere Vergleiche – aber auch diese sind durch die Wahl der Benchmarks begrenzt.

Wie man Benchmark-Aussagen einordnet

Benchmarks sind nützlich – als grobe Orientierung und zum Vergleich ähnlicher Modellgenerationen. Einige Hinweise für eine bessere Einordnung:

Neue Benchmarks sind aussagekräftiger als alte. Ein Modell, das auf einem frisch veröffentlichten, noch nicht kontaminierten Benchmark gut abschneidet, zeigt echte Fähigkeiten. Wer auf Benchmarks verweist, die seit Jahren existieren, verweist oft auf Training-Artefakte.

Variationen der Aufgabe sind aufschlussreicher als Benchmark-Scores. Wie verhält sich das Modell, wenn die Aufgabe minimal umformuliert wird? Wenn ein Modell bei leicht veränderter Formulierung plötzlich deutlich schlechter wird, zeigt das Fragilität statt Verstehen.

Unabhängige Evaluierungen gegenüber Eigenaussagen bevorzugen. Labs, die eigene Modelle auf eigenen Benchmarks messen, haben strukturelle Interessenkonflikte. Wer auf SWE-bench Verified schaut – einem Benchmark mit echten GitHub-Issues statt Multiple-Choice-Fragen – sieht oft ein anderes Bild: Modelle, die auf MMLU fast gleich lagen, können sich bei echten Programmieraufgaben um 20 Prozentpunkte unterscheiden.

Benchmark-Performance ≠ Production-Performance. Was im akademischen Test funktioniert, muss im eigenen Anwendungsfall nicht funktionieren. Eigene Tests mit repräsentativen Aufgaben sind wertvoller als jeder Leaderboard-Rang.

Was bleibt: ein Reality-Check

Skalierungsgesetze und Benchmarks zeichnen das Bild eines linearen Fortschritts – und dieses Bild ist nicht falsch, aber unvollständig. Was es nicht zeigt:

Große Modelle sind nicht automatisch besser für deinen Use Case. Ein auf spezifische Aufgaben feinjustiertes kleines Modell schlägt in der Praxis oft ein größeres Generalmodell. Phi-1, mit 1,3 Milliarden Parametern auf 7 Milliarden sorgfältig ausgewählten Trainingstoken, übertraf auf Coding-Benchmarks Modelle mit zehnfach mehr Parametern.

Benchmarks sind Marketing, keine Entscheidungsgrundlage. Modellauswahl auf Basis von Leaderboard-Rankings ohne eigene Evaluation ist fahrlässig. Was zählt, ist Performance auf den eigenen, konkreten Aufgaben.

Datenqualität wird wichtiger als Modellgröße. Der nächste große Fortschritt kommt nicht aus noch größeren Modellen, sondern aus besserer Datenkuration, besserem Post-Training und geschickterem Einsatz von Inference-Compute.

Inferenzkosten werden zum entscheidenden Faktor. Wer Modelle nicht nur testet, sondern in Produktion betreibt, merkt: Die relevante Frage ist nicht „Welches Modell ist das beste?”, sondern „Welches Modell liefert gute genug Ergebnisse zu vertretbaren Kosten und vertretbarer Latenz?”

Die Skalierungsgesetze und Benchmarks zeichnen ein Bild kontinuierlichen Fortschritts – und dieses Bild ist nicht falsch, aber es ist unvollständig. Was es nicht zeigt: die Grenzen der Architektur, die physikalischen Deckel des Wachstums und die Frage, was nach den LLMs kommt. Das ist das Thema des letzten Teils dieser Serie.