Eine differenzierte Analyse jenseits der Marketing-Versprechen
SerieRAG – Vom Konzept zum Wissenssystem
Teil 7 von 7
Das Versprechen
„RAG eliminiert Halluzinationen.” Diese Aussage ist in fast jeder Produktpräsentation, jedem Whitepaper und jedem LinkedIn-Post zum Thema zu finden. Die Logik klingt bestechend: Wenn das Modell nur auf Basis verifizierter Quellen antwortet – wie es RAG technisch ermöglicht – kann es nicht mehr erfinden.
Das stimmt – teilweise. Und genau dieses „teilweise” ist wichtig zu verstehen.
Was RAG tatsächlich besser macht
RAG reduziert eine bestimmte Klasse von Fehlern massiv: freie Erfindungen ohne Grundlage. Wenn ein LLM ohne Kontext gefragt wird, wer der CEO eines mittelständischen Unternehmens ist, erfindet es mit hoher Wahrscheinlichkeit einen Namen. Mit RAG und einem aktuellen Unternehmensprofil als Quelle liefert es den richtigen.
RAG hilft nachweislich bei:
- Faktenfragen mit klarer Antwort in den Quellen
- Zusammenfassungen von bereitgestellten Dokumenten
- Vergleiche zwischen Inhalten der Wissensbasis
- Aufgaben, bei denen die Antwort vollständig in den Quellen liegt
Die Verbesserung gegenüber reinem LLM-Output ist in diesen Fällen erheblich. Das ist nicht trivial – es ist ein echter Fortschritt.
Wo RAG das Problem nur verschiebt
Problem 1 – Falsche Quellen bleiben falsch
RAG macht die Antwort nur so gut wie die zugrundeliegenden Dokumente. Wenn die Wissensbasis veraltete Informationen enthält, liefert das System veraltete Antworten – aber mit dem Anschein von Verlässlichkeit.
Ein Beispiel: Eine Wissensbasis enthält eine Wettbewerbsanalyse von vor 18 Monaten. Das RAG-System zitiert daraus korrekt – aber die Daten sind längst überholt. Der Nutzer sieht eine saubere Quellenangabe und vertraut dem Ergebnis.
Das Risiko: Halluzination wird durch veraltete Fakten mit Quellenangabe ersetzt. Beides ist falsch, aber Letzteres ist schwerer zu erkennen.
Problem 2 – Kontextgrenzen bleiben problematisch
Selbst mit RAG hat ein LLM ein begrenztes Kontextfenster. Wenn die relevante Information über mehrere Dokumente verteilt ist und die Retrieval-Komponente nicht alle relevanten Chunks findet, arbeitet das Modell mit unvollständigem Kontext.
Problem 3 – Interpretation bleibt fehlerhaft
RAG liefert dem Modell Rohmaterial. Die Interpretation übernimmt weiterhin das LLM. Und LLMs können:
- Kausale Zusammenhänge konstruieren, die in den Quellen nicht stehen
- Zahlen in falschen Kontext setzen (z.B. absolute Zahlen als Prozent interpretieren)
- Widersprüchliche Quellen selektiv gewichten, ohne das transparent zu machen
- Implizite Schlussfolgerungen ziehen, die über das hinausgehen, was die Quellen belegen
Ein RAG-System, das zwei widersprüchliche Studien als Quellen hat, wird selten sagen: „Diese Quellen widersprechen sich.” Stattdessen wird es eine der beiden Positionen als Antwort präsentieren.
Problem 4 – Der Retrieval-Schritt selbst kann fehlschlagen
Die Qualität der Vektorsuche hängt von vielen Faktoren ab:
- Chunking-Strategie: Zu große Chunks verwässern die Relevanz. Zu kleine Chunks verlieren den Kontext.
- Embedding-Qualität: Nicht jedes Embedding-Modell versteht Fachsprache oder domänenspezifische Begriffe gleich gut.
- Query-Formulierung: Die Art, wie eine Frage formuliert ist, beeinflusst massiv, welche Chunks gefunden werden.
Wenn der Retriever die falschen Dokumente liefert, generiert das Modell eine falsche Antwort – aber mit Quellenangabe.
Die Halluzinations-Taxonomie
Nicht alle Halluzinationen sind gleich. RAG adressiert einige Typen besser als andere:
| Halluzinationstyp | Ohne RAG | Mit RAG |
|---|---|---|
| Frei erfundene Fakten | Häufig | Selten |
| Veraltete Informationen | Häufig | Kommt auf die Quellen an |
| Falsche Kausalität | Häufig | Immer noch möglich |
| Selektive Quellennutzung | – | Neues Problem |
| Überinterpretation | Häufig | Reduziert, nicht eliminiert |
| Confident Wrongness | Häufig | Seltener, aber gefährlicher |
Der letzte Punkt ist besonders tückisch: Wenn ein RAG-System falsch liegt, tut es das mit Quellenangabe. Das senkt die natürliche Skepsis des Nutzers.
Was das für die Praxis bedeutet
RAG ist keine Garantie, sondern eine Verbesserung
Der richtige Rahmen: RAG reduziert die Wahrscheinlichkeit von Halluzinationen erheblich. Es eliminiert sie nicht. Wer RAG als Wahrheitsgarantie verkauft, lügt – oder versteht das System nicht.
Quellenqualität ist Grundvoraussetzung
Die beste RAG-Architektur hilft nichts, wenn die Wissensbasis Müll enthält. „Garbage in, garbage out” gilt hier genauso wie in der klassischen Datenverarbeitung. Nur dass der Müll jetzt mit Quellenangabe kommt.
Evaluation ist keine Option, sondern Pflicht
Wer RAG produktiv einsetzt, braucht eine Evaluierungsstrategie:
- Ground-Truth-Datasets: Bekannte Frage-Antwort-Paare zum Testen
- Retrieval-Metriken: Werden die richtigen Chunks gefunden?
- Generation-Metriken: Stimmen die Antworten mit den Quellen überein?
- Regelmäßige Audits: Stichprobenhafte manuelle Prüfung
Menschliche Überprüfung bleibt notwendig
Für kritische Entscheidungen – rechtliche Einschätzungen, medizinische Informationen, finanzielle Analysen – ersetzt RAG keine menschliche Prüfung. Praktische Setups zur Halluzinations-Reduktion kombinieren RAG mit weiteren Werkzeugen, wie das Anti-Halluzinations-Setup zeigt. Es beschleunigt die Vorarbeit, aber die finale Verantwortung bleibt beim Menschen.
Ehrliche Kommunikation
Die KI-Branche neigt dazu, Limitierungen herunterzuspielen. „Halluzinationen sind gelöst” klingt besser als „Halluzinationen sind reduziert, aber nicht eliminiert, und neue Fehlerquellen kommen hinzu.”
Aber genau diese Ehrlichkeit brauchen Unternehmen, um informierte Entscheidungen zu treffen. RAG ist ein massiver Fortschritt. Es macht KI-Systeme deutlich zuverlässiger. Aber es ist kein Freifahrtschein für blindes Vertrauen.
Einordnung
RAG ist besser als kein RAG. Deutlich besser. Aber es ist ein Werkzeug mit bekannten Grenzen – nicht eine Lösung, die Nachdenken überflüssig macht.
Im nächsten Artikel geht es um eine These, die sich aus dieser Analyse ergibt: Warum kuratierte Knowledge-Container langfristig wichtiger werden als die perfekte Prompt-Formulierung.