Nach dem LLM: Grenzen, Alternativen und was wirklich möglich ist

Diese Serie hat von innen nach außen geschaut: Wie LLMs arbeiten, was sie speichern, wie sie lernen, wo sie stehen, welche Grenzen Skalierung hat. Dieser letzte Teil fragt noch eine Ebene weiter: Was passiert, wenn man gegen diese Grenzen anläuft? Kommen wir über LLMs hinaus – oder scheitern wir physikalisch schon an ihnen? Und falls wir drüber hinauskommen: Wie sieht das aus?

Das sind keine Fragen mit sicheren Antworten. Aber sie haben eine Struktur. Manche Grenzen sind fundamental – physikalische Gesetze, die sich nicht verhandeln lassen. Andere sind aktuelle Systemgrenzen – technisch überwindbar, wenn man den Aufwand betreibt. Wieder andere sind ökonomischer Natur – nicht ob etwas möglich ist, sondern ob es sich betreiben lässt. Und manche Aussagen über die Zukunft der KI sind gut belegt, manche plausibel, manche spekulativ. Diese Unterscheidungen lohnen sich.

Der aktuelle Fortschritt in KI ist weniger ein Durchbruch in Richtung allgemeiner Intelligenz als eine massive Verbesserung in der Approximation bereits bekannter Fähigkeiten. Das ist keine Abwertung – es ist eine nüchterne Einordnung, die praktisch hilft.

Fundamentale Grenzen: Physik und Daten

Thermodynamik

Das Landauer-Limit ist die thermodynamische Untergrenze für Berechnung. Jede Bit-Operation, die Information löscht, kostet mindestens eine minimale Energiemenge – bei Raumtemperatur liegt die Größenordnung bei etwa 0,018 eV, also rund 2,9 × 10⁻²¹ Joule pro gelöschtem Bit. Heutige Chips verbrauchen das Millionen- bis Milliardenfache davon. Das Landauer-Limit ist keine kurzfristige Schranke – es zeigt, wie weit die theoretische Obergrenze der Energieeffizienz noch entfernt ist.

Was jedoch heute eine reale Grenze darstellt: Energieverbrauch, Kühlung und Rack-Dichte. Hochleistungs-GPUs kommen auf über 700 Watt pro H100-Einheit. Liquid Cooling und spezialisierte Rack-Kühlsysteme sind aktiver Markt, keine Visionsprojekte. Kurzfristig begrenzen nicht primär Rechenoperationen, sondern Infrastruktur und Abwärme den praktischen Einsatz großer Modelle.

Daten als zweite harte Grenze

Neben Energie und Hardware entsteht eine zweite fundamentale Grenze: Datenqualität und -verfügbarkeit. Hochwertige, menschlich erzeugte Trainingsdaten sind begrenzt. Der zunehmende Einsatz synthetischer Daten verschiebt das Problem, löst es aber nicht vollständig – Modelle, die auf Outputs anderer Modelle trainiert werden, riskieren Qualitätsverlust und systematische Verzerrungen, ein Effekt, der in der Forschung als „Model Collapse” diskutiert wird. Skalierung ist damit nicht nur eine Frage von Rechenleistung, sondern auch von Informationsqualität. Das ist aktuell einer der relevantesten, aber öffentlich am wenigsten diskutierten Engpässe.

Aktuelle Systemgrenzen: Architektur des Transformers

Quadratische Attention-Komplexität

Der Self-Attention-Mechanismus berechnet Beziehungen zwischen allen Tokenpaaren in einer Sequenz. Das wächst quadratisch mit der Kontextlänge: Doppelte Kontextlänge bedeutet vierfachen Rechenaufwand. Optimierungen wie Flash Attention reduzieren den Konstantfaktor, ändern aber nicht die grundlegende Komplexitätsklasse. Neuere Architekturen verschieben diesen Engpass – sie eliminieren ihn nicht grundsätzlich.

Memory Wall

Bei Inferenz ist nicht der Rechenaufwand limitierend, sondern die Geschwindigkeit, mit der Gewichte aus dem Speicher gelesen werden können – ein Engpass, der in der Systemarchitektur als „Memory Wall” bekannt ist. Dieser wächst mit der Modellgröße schneller als die Hardware-Bandbreite zunimmt und bleibt ein persistentes Problem für große Modelle im Produktivbetrieb.

Kein kontinuierliches Lernen

Ein trainiertes LLM lernt im normalen Inferenzbetrieb nicht dazu – die Gewichte ändern sich nicht. Das ist eine Vereinfachung: Forschung zu Online-Adaptation, Memory-Mechanismen und agentischen Systemen mit persistenter Zustandsspeicherung ist aktiv. Aber im heutigen Produktivbetrieb gilt: LLMs sind statisch in einer dynamischen Welt. Fine-tuning und Retrieval-Augmentation sind Workarounds, keine strukturelle Lösung.

Kein persistentes Gedächtnis und kein Zielsystem

Das Kontextfenster ist das Gedächtnis – alles, was darin nicht steht, existiert nicht. Ein Gespräch von gestern ist heute vergessen, sofern es nicht manuell eingefügt wird.

Tiefer liegt eine weitere Lücke: LLMs haben kein eigenes Zielsystem. Sie optimieren auf Wahrscheinlichkeiten, nicht auf Zielerreichung. Agentische Systeme versuchen diese Lücke zu schließen, indem sie Planung, Feedback-Loops und externe Aktionen integrieren. Ob daraus stabile, autonome Systeme entstehen, ist offen.

Sequenzielle Ausgabe

Die Generierung ist token-sequenziell und nicht vollständig parallelisierbar. Bei sehr langen Antworten ist das ein Durchsatz-Engpass, der sich nicht wegoptimieren lässt.

Ökonomische Grenzen: Was sich betreiben lässt

Eine Grenze, die selten explizit benannt wird: Die eigentliche wirtschaftliche Schranke liegt nicht im Training, sondern in der Inferenz. Systeme, die AGI-ähnliche Fähigkeiten besitzen, müssen diese zu vertretbaren Kosten pro Anfrage bereitstellen. Ein Modell, das nur unter extremem Rechenaufwand funktioniert, ist kein praktisches System – unabhängig davon, was es kann.

Was heute schon anders ist: Alternativen entlang verschiedener Achsen

Diese Ansätze sind weniger Alternativen zu LLMs als Erweiterungen entlang verschiedener Achsen: Effizienz, Spezialisierung, Integration. Das zukünftige System wird wahrscheinlich mehrere dieser Paradigmen kombinieren.

State Space Models (SSMs) / Mamba: Eine alternative Architektur, die Sequenzen mit linearer statt quadratischer Komplexität verarbeitet. Mamba zeigte 2023, dass SSMs in manchen Aufgaben mit Transformern mithalten oder sie übertreffen können – bei deutlich geringerem Rechenaufwand für lange Sequenzen. SSMs haben Transformer im Sprachbereich bisher nicht pauschal abgelöst, sind aber ein ernsthafter Konkurrent für bestimmte Anwendungsfälle.

Mixture of Experts (MoE): MoE-Modelle aktivieren pro Token nur einen Teil ihrer Parameter – Sparse Activation. Das ermöglicht mehr Kapazität pro aktivem Token bei ähnlichem Rechenaufwand: ein Effizienzgewinn, kein Intelligenzsprung. Modelle wie Mixtral oder Googles Gemini nutzen diesen Ansatz. Der Preis: höherer Gesamtspeicherbedarf, Routing-Komplexität und teils instabileres Training.

Test-Time Compute: Statt größerer Modelle mehr Inferenzzeit. OpenAIs o1 und o3 lassen das Modell vor der Antwort intern mehrere Reasoning-Schritte durchlaufen. Wichtig: Das ist keine neue Architektur und kein strukturell anderes Verständnis – der Effekt entsteht durch zusätzliche Berechnungsschritte, die eine Simulation von Reasoning erzeugen. Trotzdem ist es eine zweite Skalierungsachse neben der Trainingsgröße: Inferenzbudget wird damit Teil der Modellleistung.

Retrieval-Augmented Generation (RAG): Kein neues Wissen in Gewichten, sondern dynamischer Zugriff auf externe Datenquellen zur Antwortzeit. Begrenzt das Staleness-Problem und reduziert Halluzinationen bei faktischen Fragen – aber löst keine strukturellen Kognitionsprobleme.

Längerfristige Richtungen

Weiter in der Zukunft gibt es Ansätze, die fundamentalere Änderungen versprechen. Diese Richtungen sind reale Forschungsgebiete – von einer klaren Ablösung des Transformer-Paradigmas aber noch weit entfernt.

Neurosymbolische Systeme: Kombination aus neuronalen Netzen mit formaler Logik und Wissensgraphen. Die Idee: LLMs als Sprachschnittstelle, formale Systeme für verlässliches Schlussfolgern. In der Forschung aktiv, produktiv noch kaum verfügbar.

World Models: Systeme, die ein kausales internes Modell der Welt aufbauen – Repräsentationen von Objekten, Kausalbeziehungen, physikalischen Gesetzen, nicht nur Wahrscheinlichkeiten über Tokens. Googles DeepMind (Genie 3) und Meta AI forschen aktiv daran. Ob World Models ein realistischer Schritt zu robusterer Kognition sind, ist plausibel – aber noch nicht belegt.

Embodiment: Ein offener Punkt in AGI-Debatten ist die Rolle physischer oder simulierter Interaktion mit der Welt. Viele Theorien gehen davon aus, dass robuste Intelligenz nicht rein symbolisch entsteht, sondern durch sensorische und motorische Erfahrung. Reine Sprachmodelle könnten hier strukturell limitiert sein – ob das ein grundlegendes oder überwindbares Problem ist, bleibt offen.

Neuromorphic Computing: Hardware nahe an biologischen Neuronen mit Spike-basierter Kommunikation. Intels Loihi und IBMs TrueNorth sind Forschungsplattformen. Kommerzielle Relevanz: noch nicht absehbar.

Quantencomputing: Für KI-Training und Inferenz auf absehbare Zeit nicht relevant – aktuelle Quantensysteme sind zu fehleranfällig und zu klein. Für sehr spezifische Optimierungsprobleme langfristig möglich. Für neuronale Netze skalierbar: nicht in den nächsten zehn Jahren.

Die Wahrscheinlichkeitsfrage und das Messbarkeitsproblem

Werden wir über LLMs hinauskommen? Wahrscheinlich ja. Die Frage ist wann und auf welchem Weg.

Werden wir AGI durch reines Skalieren von LLMs erreichen? Reines Skalieren verbessert wichtige Fähigkeiten kontinuierlich – aber wahrscheinlich nicht notwendigerweise vollständig. Die offenen Probleme – Kausalität, Langzeitgedächtnis, robustes Lernen, Alignment und Handlungsfähigkeit – werden durch Skalierung kleiner, aber wahrscheinlich nicht allein gelöst. AGI ist vermutlich nicht nur ein Skalierungsproblem.

Ein grundlegendes Problem, das dabei mitläuft: Wir wissen nicht genau, wann AGI erreicht wäre. Benchmarks messen Teilfähigkeiten, keine allgemeine Intelligenz. Fortschritt wird dadurch schwer vergleichbar und teilweise überschätzt. Das ist kein Schönheitsfehler – es ist ein strukturelles Messproblem, das die öffentliche Wahrnehmung von KI-Fortschritten systematisch verzerrt.

Hinzu kommt Alignment: Mit steigender Modellfähigkeit wächst die Herausforderung der Steuerbarkeit. Übereinstimmung zwischen Modellverhalten und menschlichen Zielen ist kein gelöstes Problem. Fortschritte in Richtung leistungsfähigerer Systeme sind nicht nur eine Frage der Leistungsfähigkeit, sondern auch der kontrollierten Nutzbarkeit.

Was das praktisch bedeutet

Drei Sätze für den Alltag:

LLMs bleiben auf absehbare Zeit die beste allgemeine Sprachschnittstelle – vielseitig, schnell verbessernd, gut integrierbar.

Produktiv nutzbar werden sie vor allem als Teil größerer Systeme: mit Retrieval, Tools, Memory und Verifikation. Ein einzelnes Modell allein löst weniger Probleme als ein Ökosystem, das seine Schwächen kompensiert.

Der wahrscheinlichste Pfad zu leistungsfähigeren Systemen ist nicht ein einzelnes größeres Modell, sondern die Kombination aus mehreren spezialisierten Komponenten – Sprachmodell, formale Systeme, externes Wissen, Infrastruktur, Steuerung.

Was das für heute bedeutet

Die nüchterne Einordnung: Wir befinden uns in einer Phase intensiver LLM-Nutzung und -Optimierung, mit begrenzten paradigmatischen Durchbrüchen. Das ist nicht pessimistisch – es ist eine Beschreibung des normalen Verlaufs technologischer Entwicklung. Die Dampfmaschine war jahrzehntelang das Paradigma, bevor Verbrennungsmotoren und Elektromotoren kamen. Transistoren ersetzten Röhren. Tiefe neuronale Netze verdrängten klassische ML-Methoden.

Was sicher ist: LLMs sind nicht das Ende der KI-Entwicklung. Sie sind ein außerordentlich mächtiges Werkzeug mit bekannten Grenzen. Wer diese Grenzen kennt – und diese Serie hat versucht, sie systematisch aufzuzeigen – kann LLMs sinnvoll einsetzen, ihre Schwächen kompensieren und die Entwicklung nüchtern einordnen, wenn die nächste Architektur auf den Markt kommt.