LLMs, AGI und der Engpass dahinter

Die vorigen Teile dieser Serie haben gezeigt, wie KI-Modelle intern funktionieren: wie sie Token für Token antworten, was Modellgewichte sind und warum Speicher und Bandbreite oft der eigentliche Engpass sind.

Dieser Teil geht eine Ebene höher: Was ist eigentlich „KI” – und wo stehen die Systeme, die wir heute nutzen?

Das klingt abstrakt, ist aber praktisch relevant. Wer mit Tools wie ChatGPT, GitHub Copilot oder Claude arbeitet, stößt ständig auf widersprüchliche Aussagen: „Das ist keine echte KI”, „Das ist nur Statistik”, „AGI ist nah”, „AGI ist Jahrzehnte entfernt”. Diese Aussagen widersprechen sich nicht, weil jemand falsch liegt – sondern weil unterschiedliche Ebenen vermischt werden.

Dieser Artikel trennt diese Ebenen sauber:

Was ist KI formal?
Wo gehören LLMs hin?
Was bedeutet AGI konkret?
Wo liegen die echten Engpässe?

Was KI formal bedeutet

Die OECD definiert ein KI-System als ein maschinenbasiertes System, das für gegebene Ziele aus Eingaben ableitet, wie es Ausgaben erzeugt – also Vorhersagen, Inhalte, Empfehlungen oder Entscheidungen.

Wichtig daran: Diese Definition ist bewusst breit. Darunter fallen neuronale Netze, klassische Machine-Learning-Modelle und regelbasierte Systeme. KI ist also kein spezifischer Ansatz, sondern ein Oberbegriff für Problemlösungsverhalten.

Auch regulatorisch ist das klar: NIST ordnet Generative AI als Teilbereich von KI ein, nicht als eigene Kategorie außerhalb davon. Generative Modelle sind Teil von KI, nicht etwas Eigenständiges daneben.

Wo LLMs in der Taxonomie stehen

Die Einordnung sieht vereinfacht so aus:

KI-Taxonomie

KI (Artificial Intelligence)

Klassische KI (Regeln, Expertensysteme)

Machine Learning

Klassische ML-Modelle (Random Forests, SVM)

Deep Learning

Generative KI (GenAI)

Foundation Models / General-Purpose AI

LLMs (Large Language Models)

LLMs sind also generativ, breit einsetzbar und auf Sprache spezialisiert. Die EU beschreibt solche Modelle im AI Act als General-Purpose AI – also Systeme, die viele Aufgaben abdecken und in andere Systeme integriert werden können.

Konsequenz: Wenn jemand über „KI” spricht, meint er oft nur LLMs. Das führt regelmäßig zu falschen Schlussfolgerungen.

Das bekannte Stufenmodell: ANI, AGI, ASI

Das populärste Stufenmodell ist konzeptionell, nicht regulatorisch:

ANI (Artificial Narrow Intelligence): spezialisierte Systeme für bestimmte Aufgaben
AGI (Artificial General Intelligence): breite, menschenähnliche kognitive Fähigkeiten über viele Domänen
ASI (Artificial Superintelligence): Systeme, die Menschen breit und deutlich übertreffen

Das Problem: Diese Begriffe sind unscharf. Was heißt „allgemein” konkret? Was heißt „menschenähnlich” messbar? Genau deshalb hat ein DeepMind-Forscherteam ein feinmaschigeres Modell vorgeschlagen.

Das präzisere Fähigkeitsmodell: Levels of AGI

Im DeepMind-Papier werden KI-Systeme entlang von Leistungstiefe und Generalisierungsbreite eingeordnet:

Level 0 – Keine KI Regelbasierte Systeme ohne Inferenz

Level 1 – Emerging Etwa auf dem Niveau eines ungelernten Menschen oder leicht darüber

Level 2 – Competent Mindestens 50. Perzentil kompetenter Erwachsener

Level 3 – Expert Mindestens 90. Perzentil

Level 4 – Virtuoso Mindestens 99. Perzentil

Level 5 – Superhuman Oberhalb menschlicher Leistung in allen relevanten Aufgaben

Entscheidend: Diese Level gelten jeweils für Narrow (spezifisch) und General (breit). AGI beginnt hier erst bei Level 2 General – dem Punkt, wo ein System über viele Aufgaben hinweg stabil auf dem Niveau eines durchschnittlich kompetenten Menschen liegt. Nicht punktuell. Nicht in Benchmarks. Sondern zuverlässig.

Wo heutige LLMs stehen

Aktuelle Frontier-Systeme liegen grob bei Level 1 General – also „Emerging AGI”.

Sie können schreiben, coden, erklären und strukturieren – teilweise auf hohem Niveau. Aber sie scheitern systematisch bei:

Robustheit: kleine Prompt-Variationen führen zu stark abweichenden Ergebnissen
Faktentreue: Halluzinationen bleiben ein strukturelles Problem
Langfristiger Planung: mehrstufige Aufgaben ohne Fehlerakkumulation
Transfer: neue Aufgabentypen zuverlässig erschließen
Selbsteinschätzung: wissen, wann das Modell etwas nicht weiß

Das sind keine Randprobleme – das sind strukturelle Grenzen.

Warum diese Grenzen strukturell sind

LLMs berechnen Wahrscheinlichkeiten über Tokens. Das bedeutet: kein eingebauter Wahrheitsbegriff, kein echtes Weltmodell, keine stabile Zielverfolgung.

Das System optimiert: „Was klingt plausibel?” – nicht: „Was ist wahr?”

Der eigentliche Engpass: Speicher und Energie

Die nächste Entwicklungsstufe wird nicht nur durch Algorithmen begrenzt, sondern durch Physik und Kosten.

Speicher (Memory Bandwidth)

Moderne LLMs bestehen aus Milliarden bis Billionen Parametern. Das Problem ist nicht nur die Größe, sondern wie schnell diese Daten bewegt werden können.

Limitierende Faktoren:

VRAM-Größe
Speicherbandbreite
Datenbewegung zwischen GPU und RAM

In vielen Fällen ist Memory I/O der Bottleneck, nicht Rechenleistung.

Energieverbrauch

Training großer Modelle kostet Millionen bis Milliarden Dollar, enorme Strommengen und spezialisierte Infrastruktur. Auch Inferenz ist teuer: Jede Anfrage bewegt große Datenmengen, Skalierung bedeutet linearen Ressourcenanstieg.

Das führt zu einer harten Realität: Nicht alles, was theoretisch möglich ist, ist wirtschaftlich betreibbar.

Skalierungsgrenzen

Die letzten Jahre folgten einem einfachen Muster: größeres Modell, bessere Ergebnisse. Dieses Scaling Law flacht ab – Datenqualität wird zum Engpass, Training wird extrem teuer, Gewinne werden kleiner.

Das zwingt zu neuen Ansätzen.

Was daraus folgt

Die nächsten Fortschritte kommen wahrscheinlich nicht aus „noch größer” oder „noch mehr Daten”, sondern aus:

effizienteren Architekturen
externem Speicher (Retrieval, Tools)
hybriden Systemen (Symbolik + Statistik)
besseren Trainingszielen

Einordnung

LLMs sind heute eindeutig KI, leistungsfähig und breit einsetzbar. Aber sie sind nicht AGI, nicht stabil generalisierend und nicht strukturell zuverlässig.

Die zentrale Grenze ist nicht nur algorithmisch, sondern physikalisch: Speicher, Bandbreite und Energie bestimmen, wie weit wir skalieren können. Und genau dort entscheidet sich, wie die nächste Generation von KI-Systemen aussehen wird.

Diese Lücke lässt sich nicht allein durch mehr Training schließen. Warum das so ist, erklärt der nächste Teil dieser Serie – dort geht es darum, wie Training überhaupt funktioniert und welche Grenzen dabei strukturell eingebaut werden.