Denken KI-Modelle wirklich? Eine kritische Analyse aktueller Forschung
Aktuelle Studien zeigen die Grenzen des 'Reasoning' bei großen Sprachmodellen auf
Künstliche Intelligenz beeindruckt durch ihre Fähigkeit, komplexe Antworten zu liefern und dabei scheinbar logisch zu argumentieren. Insbesondere große Sprachmodelle wie GPT-4 oder Claude 3.7 erklären ihre Schlüsse in einzelnen Schritten, was den Eindruck eines echten Denkprozesses vermittelt. Doch aktuelle Studien aus dem Jahr 2024 legen nahe, dass diese Form der “Denkarbeit” oft eher eine Illusion als ein tatsächliches Verständnis ist.
Was bedeutet “Denken” in der KI-Forschung?
In der wissenschaftlichen Diskussion wird zwischen sogenannter starker KI (Artificial General Intelligence, AGI) und schwacher KI unterschieden. Letztere beschreibt Systeme, die spezifische Aufgaben erfüllen, ohne ein eigenes Bewusstsein oder echte Flexibilität zu besitzen. Aktuelle Sprachmodelle gehören klar in diese Kategorie. Denken im menschlichen Sinn umfasst jedoch mehr als nur die Abfolge von Wahrscheinlichkeiten – es verlangt zielgerichtetes, logisches Schlussfolgern über mehrere Schritte hinweg.
Der Praxistest: Logikpuzzles als Messlatte für KI-Denken
Eine vielbeachtete Studie (https://arxiv.org/abs/2406.01077) untersuchte genau diesen Aspekt. Sie testete verschiedene KI-Modelle in klassischen Logikaufgaben wie dem Tower of Hanoi, River Crossing oder Checkers Jumping. Diese Aufgaben sind ideal für solche Tests, da ihre Komplexität stufenweise erhöht werden kann, während die Logik unverändert bleibt. Geprüft wurde nicht nur das Endergebnis, sondern auch jeder einzelne “Denk”-Schritt der Modelle. Dabei kamen unter anderem Claude 3.7, DeepSeek R1 und OpenAIs GPT-Modelle zum Einsatz, jeweils mit und ohne aktivierte Reasoning-Funktion.
Woran die Modelle scheitern
Die Ergebnisse waren aufschlussreich: Bei einfachen Aufgaben schnitten die nicht-denkenden Varianten effizienter ab, da sie schneller zur Lösung gelangten. Bei mittlerem Schwierigkeitsgrad konnten die reasoning-optimierten Modelle die Oberhand gewinnen – allerdings nur durch deutlich höheren Rechen- und Token-Aufwand. Bei komplexen Herausforderungen wie dem Tower of Hanoi mit zehn oder mehr Scheiben brachen jedoch sämtliche Modelle ein. Interessanterweise reduzierten sie sogar ihren Denkaufwand, obwohl genügend Tokens zur Verfügung standen. Die Autoren der Studie sprechen hier von einem “counterintuitive scaling limit”.
Simulation statt Schlussfolgerung
Die Modelle scheiterten nicht nur an der Entwicklung einer Lösung, sondern auch daran, bereits vorgegebene Schrittfolgen korrekt auszuführen. Damit wird deutlich, dass die Schwäche nicht nur im Verstehen, sondern auch in der ausdauernden logischen Umsetzung liegt. Dieses Verhalten deutet darauf hin, dass viele Modelle vor allem bekannte Muster aus den Trainingsdaten wiedererkennen und rekombinieren, anstatt neue Schlüsse zu ziehen.
Stimmen aus der Fachwelt
Die Reaktionen in der Fachwelt fielen unterschiedlich aus. Gary Marcus, ein prominenter Kritiker neuronaler Netze, wertete die Ergebnisse als Beleg dafür, dass KI-Modelle derzeit keine echte Denkfähigkeit besitzen. Er erinnerte daran, dass der Tower of Hanoi bereits 1957 von Herbert Simon erfolgreich algorithmisch gelöst wurde. Andere Experten, wie Kevin Bryan von der University of Toronto, wiesen darauf hin, dass viele Modelle so trainiert wurden, dass sie nicht zu viel Ressourcen auf einfache Aufgaben verschwenden. Diese Designentscheidung könnte erklären, warum der Denkprozess frühzeitig abbricht, sobald die Aufgabe komplexer wird.
Ein strukturelles Problem der heutigen KI
Das zentrale Problem liegt damit nicht in der Leistungsfähigkeit der Hardware oder der Menge der Daten, sondern im strukturellen Aufbau der Modelle selbst. Sprach-KIs arbeiten primär probabilistisch und sind nicht darauf ausgelegt, symbolisches Denken über viele Schritte hinweg auszuführen. Selbst wenn ein Modell weiß, was zu tun ist, fehlt ihm oft die Zuverlässigkeit, diesen Prozess über längere Zeit korrekt fortzusetzen.
Der Begriff “Denken” auf dem Prüfstand
Diese Erkenntnisse werfen ein neues Licht auf die Debatte über das “Denken” von KI. Der Begriff selbst wird in diesem Kontext zunehmend kritisch hinterfragt. Sprachmodelle wie GPT-4 können erstaunliche Ergebnisse liefern, solange sie sich im Rahmen ihrer Trainingsdaten bewegen. Doch echte Problemlösung erfordert mehr als das: Es braucht die Fähigkeit, symbolisch zu abstrahieren, logisch zu argumentieren und vor allem: dranzubleiben.
Perspektiven für die Weiterentwicklung
Für die nächsten Entwicklungsschritte in der KI-Forschung bedeutet das eine klare Herausforderung. Möglicherweise braucht es eine neue Generation von Modellen, die klassische symbolische KI mit modernen Sprachmodellen kombiniert. Alternativ müssten bestehende Systeme deutlich anders trainiert werden – nicht auf maximale Effizienz, sondern auf logische Ausdauer.
Fest steht: Die Entwicklung schreitet rasant voran. Was 2024 als Grenze erscheint, könnte 2026 bereits Standard sein. Umso wichtiger ist es, aktuelle Studien nicht nur als Momentaufnahme, sondern als Teil eines größeren Erkenntnisprozesses zu betrachten. Der Diskurs über denkende Maschinen ist dabei genauso dynamisch wie die Technologie selbst.
Quellen zur Vertiefung
Studie zur Reasoning-Fähigkeit von KI-Modellen (2024): https://arxiv.org/abs/2406.01077
Gary Marcus: https://garymarcus.substack.com
Stanford HAI zu AGI und Reasoning: https://hai.stanford.edu
OpenAI zu GPT-4 und Logik: https://openai.com/research
Kevin Bryan (University of Toronto): Twitter/X & SSRN