Wie KI-Antworten entstehen: Die drei Quellen erklärt

Die Black Box öffnen

Wenn du ChatGPT eine Frage stellst, passiert etwas, das wie Magie wirkt: In Sekunden erscheint eine Antwort, die oft erstaunlich präzise ist.

Aber woher kommt diese Antwort eigentlich?

Die Wahrheit ist: KI ist keine Magie. Es ist Mechanik.

Und wenn du verstehst, wie diese Mechanik funktioniert, kannst du sie gezielt nutzen.

Jede KI-Antwort – egal ob von ChatGPT, Claude, Gemini oder einem anderen Large Language Model – setzt sich aus drei Quellen zusammen:

Vortrainiertes Wissen (60-80%): Was das Modell während des Trainings gelernt hat
Aktueller Kontext (20-40%): Was du gerade schreibst und wie du es formulierst
Nutzerhistorie (<10%): Was das System über dich gespeichert hat

In diesem Artikel schauen wir uns an, wie diese drei Komponenten zusammenwirken – und was das für deine tägliche Arbeit mit KI bedeutet.

Die drei Komponenten im Detail

1. Vortrainiertes Wissen (60-80%)

Das ist die größte Quelle jeder KI-Antwort.

Was ist Pre-Training?

Bevor ChatGPT oder Claude jemals mit dir gesprochen haben, wurden sie mit Milliarden von Texten trainiert:

Wikipedia-Artikel
Wissenschaftliche Papers
Bücher, Blogs, Foren
Code-Repositories
Produktbeschreibungen, Reviews
Nachrichtenartikel

Das Modell hat diese Texte nicht auswendig gelernt – es hat Muster erkannt:

Wie schreibt man über Espressomaschinen?
Was sind typische Marketing-Strategien?
Wie erklärt man technische Konzepte?
Welche Antworten folgen auf welche Fragen?

Das Ergebnis:

Das Modell „weiß” nicht wirklich etwas. Es hat eine statistische Repräsentation von Wissen – eine Art Durchschnitt aus allem, was es je zu einem Thema gelesen hat.

Beispiel:

Du fragst: „Was ist eine gute Marketing-Strategie?”

Die Antwort kommt zu 80-90% aus Vorwissen – weil das Modell tausende Marketing-Bücher, Artikel und Diskussionen gesehen hat.

Die Antwort ist der Durchschnitt dieser Quellen.

Der Haken:

Dieses Wissen ist:

Statisch: Es endet am Trainingsdatum (z. B. April 2024 bei GPT-4)
Generisch: Es ist der Durchschnitt, nicht die Spitze
Unkritisch: Das Modell kann nicht beurteilen, was richtig oder falsch ist

Was das bedeutet:

Wenn du eine generische Frage stellst („Was ist gutes Marketing?”), bekommst du eine generische Antwort – weil 80% davon aus diesem Durchschnittswissen kommen.

2. Aktueller Kontext (20-40%)

Das ist alles, was du in diesem Moment in den Chat schreibst.

Was gehört zum Kontext?

Deine aktuelle Frage
Vorherige Nachrichten im selben Chat
Hochgeladene Dateien (bei manchen Tools)
System-Prompts (falls vorhanden)

Wie groß ist der Kontext?

Jedes Modell hat ein Context Window – die maximale Menge an Text, die es gleichzeitig „sehen” kann:

GPT-4: 128.000 Tokens (~96.000 Wörter)
Claude: 200.000 Tokens (~150.000 Wörter)
Gemini: bis 1.000.000 Tokens (~750.000 Wörter)

Tokens? Ein Token ist etwa 0,75 Wörter. „Espressomaschine” = 2 Tokens.

Was Studien zeigen:

OpenAI-Daten belegen: Der Kontext erklärt etwa 30% der Antwortvarianz.

Das heißt: Guter Kontext verändert die Antwort signifikant.

Aber – und das ist wichtig:

Mehr Kontext ist NICHT automatisch besser

Die Chroma-Studie (2025) hat große Sprachmodelle mit unterschiedlich langen Kontexten getestet.

Das Ergebnis:

Bis ~10.000 Wörter: Leistung steigt
10.000–50.000 Wörter: Leistung bleibt stabil
Ab 50.000+ Wörtern: Leistung sinkt um bis zu 50%

Der Grund:

Zu viele Informationen erzeugen „Ablenkung”. Das Modell verliert den Fokus auf das Wesentliche.

Der “CatAttack”-Effekt

Forscher von Mindverse (2025) haben ein Experiment gemacht:

Sie haben banale Informationen in Prompts eingebaut – z. B. „Übrigens, meine Katze heißt Mimi.”

Ergebnis: Die Fehlerrate verdreifachte sich.

Warum? Das Modell hat versucht, diese Information zu „verarbeiten” – und wurde vom eigentlichen Thema abgelenkt.

Die Konsequenz:

Es kommt nicht auf die Menge des Kontexts an, sondern auf die Relevanz.

Unterschiede zwischen Modellen

Claude (Anthropic) ist laut Studien besser darin, mit „Ablenkern” im Kontext umzugehen – das Context Window ist größer und die Architektur robuster.

GPT-4 (OpenAI) ist optimiert auf kürzere, fokussierte Kontexte.

Gemini (Google) hat das größte Context Window, aber die Qualität bei sehr langen Kontexten ist noch inkonsistent.

Das Schema bleibt ähnlich: Pre-Training (Vorwissen) → Fine-Tuning (Verhaltensanpassung) → Inference (Kontext + Sampling).

3. Nutzerhistorie / Profiling (<10%)

Das ist alles, was das System über dich gespeichert hat – falls überhaupt.

Was wird gespeichert? (je nach Tool)

ChatGPT:

Chatverlauf (sofern nicht deaktiviert)
Custom Instructions (falls aktiviert)
Memory-Funktion (bei Plus/Team, optional)

Claude:

Chatverlauf innerhalb eines Projekts
Hochgeladene Dateien in Projekten
Keine persistente Nutzerhistorie über Projekte hinweg

Perplexity, Gemini, etc.:

Unterschiedlich, meist ähnlich wie ChatGPT

Wie funktioniert Personalisierung?

Die Historie wird als zusätzlicher Kontext eingebunden – quasi als unsichtbarer Teil deiner Eingabe.

Beispiel:

Du fragst: „Empfiehl mir eine Espressomaschine.”

Account A (neu, keine Historie): → Generische Empfehlung: „DeLonghi Dedica, Sage Bambino, oder ein Vollautomat – was ist dein Budget?”

Account B (3 Monate Historie mit Kaffee-Fragen): → Personalisiert: „Basierend auf deinen vorherigen Fragen zu Siebträgern: Die Sage Bambino Plus passt gut. Du hast ja gesagt, du trinkst 3-4 Espressi täglich…”

Der Unterschied ist messbar – aber nicht dominant.

Studien zeigen: 70-90% Übereinstimmung

Wenn zwei Nutzer die exakt gleiche Frage stellen – einer mit umfangreicher Historie, einer ohne – stimmen die Antworten zu 70-90% überein.

Warum?

Weil der größte Teil der Antwort (60-80%) aus Vorwissen kommt. Die Personalisierung schlägt nur bei den restlichen 20-40% durch.

Profiling ist:

Subtil: Es wirkt, aber nicht dramatisch
Modellabhängig: Claude speichert weniger als ChatGPT
Reguliert: DSGVO in Europa schränkt ein, was gespeichert werden darf

DSGVO-Realität: Was gespeichert wird, was nicht

In Europa ist Profiling stark reguliert.

Was die meisten KI-Tools machen:

Anonymisieren von Daten
Optionales Speichern (du kannst Historie ausschalten)
Keine langfristige Profilbildung ohne Zustimmung

Was das bedeutet:

Bei vielen Tools wird weniger gespeichert, als du denkst – vor allem, wenn du die Historie deaktiviert hast.

Fazit:

Nutzerhistorie ist die kleinste Quelle – aber sie kann bei kontinuierlicher Arbeit (z. B. in Claude-Projekten oder ChatGPT mit Memory) Nuancen verbessern.

Wie die drei Quellen zusammenwirken

Jetzt wird es praktisch. Wie hängen die drei Quellen in echten Szenarien zusammen?

Szenario 1: Neue Sitzung, kurze Frage

Frage: „Was ist ein gutes CRM?”

Die Quellen:

Vorwissen: 90% (alles, was das Modell über CRM weiß)
Kontext: 10% („CRM” – aber keine Details)
Profiling: 0% (neuer Chat)

Ergebnis:

Generische Antwort mit Top-5-CRM-Tools (HubSpot, Salesforce, Pipedrive…).

Warum?

Fast die gesamte Antwort stammt aus Vorwissen.

Szenario 2: Lange Projekt-Session, spezifischer Kontext

Frage: „Welches CRM passt für ein 3-Personen-B2B-Team, das hauptsächlich über LinkedIn akquiriert, Gmail nutzt und max. 50 €/Monat Budget hat?”

Die Quellen:

Vorwissen: 50% (Grundwissen über CRM)
Kontext: 40% (die spezifischen Anforderungen)
Profiling: 10% (vorherige Gespräche über B2B-Tools)

Ergebnis:

Spezifische Empfehlung: „Pipedrive oder HubSpot Free, weil Gmail-Integration, LinkedIn Sales Navigator kompatibel, im Budget.”

Warum?

Der Kontext formt die Antwort erheblich.

Szenario 3: Nutzer mit Historie fragt bekanntes Thema

Frage: „Empfiehl mir einen Laufschuh.”

Account mit 3 Monaten Historie (viele Lauf-Fragen):

Die Quellen:

Vorwissen: 60% (Laufschuh-Grundwissen)
Kontext: 30% (die aktuelle Frage)
Profiling: 10% (vorherige Gespräche: „Du läufst Halbmarathon, Überpronation…”)

Ergebnis:

Personalisierte Empfehlung: „Für deine Überpronation und Halbmarathon-Distanzen: Brooks Adrenaline oder Asics Kayano.”

Warum?

Die Historie liefert Kontext, der sonst fehlen würde.

Inference: Wie die Antwort entsteht

Jetzt kommt der letzte Schritt: Wie wird aus den drei Quellen eine Antwort?

Was passiert beim Sampling?

Das Modell erzeugt Antworten Wort für Wort (genauer: Token für Token).

Für jedes nächste Wort gibt es mehrere Möglichkeiten – das Modell wählt eines aus.

Beispiel:

Frage: „Was ist gutes Marketing?”

Nächstes Wort könnte sein:

„Gutes Marketing ist…” (Wahrscheinlichkeit: 40%)
„Marketing sollte…” (Wahrscheinlichkeit: 30%)
„Effektives Marketing…” (Wahrscheinlichkeit: 20%)

Wie wählt das Modell?

Der Temperatur-Parameter

Temperatur steuert, wie „kreativ” oder „zufällig” die Auswahl ist:

Temperatur 0: Immer das wahrscheinlichste Wort → deterministisch, wiederholbar
Temperatur 0.7: Etwas Varianz → Standard bei ChatGPT
Temperatur 1.0: Hohe Varianz → kreativ, aber manchmal inkohärent

Standard-Einstellung bei ChatGPT & Co: 0.7–1.0

Was das bedeutet:

Selbst bei identischer Frage ist jede Antwort ein bisschen anders.

Das ist kein Bug. Das ist Feature – weil es kreativere, weniger roboterhafte Antworten ermöglicht.

Warum dieselbe Frage unterschiedliche Antworten erzeugt

Ich habe das getestet. 10 separate Chats, dieselbe Frage:

„Nenne mir 3 CRM-Tools für kleine B2B-Teams.”

Das Ergebnis:

10 Mal wurden HubSpot und Pipedrive genannt
7 Mal wurde Salesforce genannt
3 Mal wurde Zoho oder Freshsales genannt
Die Reihenfolge war jedes Mal anders
Die Begründungen waren ähnlich, aber unterschiedlich formuliert

Fazit:

Die Kernaussage bleibt stabil (weil aus Vorwissen), aber die Details variieren (wegen Sampling).

Was das für deine Nutzung bedeutet

Jetzt die entscheidende Frage: Was machst du mit diesem Wissen?

1. Kontext ist deine größte Stellschraube

Von den drei Quellen kannst du nur eine aktiv beeinflussen:

Vorwissen: Kannst du nicht ändern (ist fix, wurde vor Monaten trainiert)
Profiling: Kannst du kaum steuern (zu gering, reguliert, modellabhängig)
Kontext: Hast du volle Kontrolle

Das bedeutet:

Wenn du bessere Antworten willst, musst du besseren Kontext liefern.

2. Context Engineering: Die Kunst des guten Kontexts

Context Engineering bedeutet: Den Kontext so strukturieren, dass er maximal relevant und minimal ablenkend ist.

Die 4-Punkte-Checkliste

Guter Kontext beantwortet:

Was ist das Ziel? (z. B. „Marketing-Strategie entwickeln”)
Was ist der Rahmen? (z. B. „B2B-SaaS, 5 MA, 80k € Umsatz”)
Was ist die Einschränkung? (z. B. „Budget: 1.000 €/Monat, Zeit: 10h/Woche”)
Was ist die konkrete Frage? (z. B. „Welche 3 Kanäle priorisieren?”)

Alles andere: Weglassen.

Beispiel: Schlechter vs. guter Kontext

Schlechter Kontext (viel, aber irrelevant):

„Ich bin Gründer eines Startups. Wir haben 2021 angefangen, mittlerweile sind wir 5 Leute. Unsere Büros sind in Hamburg. Wir arbeiten viel remote. Ich mag Kaffee. Unser Logo ist blau. Wir wollen eine Marketing-Strategie entwickeln. Ich habe BWL studiert. Mein Co-Founder ist Entwickler. Wir nutzen Slack. Welche Marketing-Strategie passt?”

Warum schlecht?

70% irrelevant („Ich mag Kaffee”, „Logo ist blau”) – erzeugt Ablenkung (CatAttack-Effekt).

Guter Kontext (kompakt, aber relevant):

„B2B-SaaS-Startup, 5 Mitarbeiter, Produkt: Projektmanagement-Tool für Agenturen, Zielgruppe: 10-50 MA, Jahresumsatz aktuell 80k €, Ziel: 200k € in 12 Monaten, Budget: 1.000 €/Monat, Zeit: 10h/Woche. Welche 3 Marketing-Kanäle priorisieren?”

Warum gut?

100% relevant, fokussiert die Antwort.

3. Struktur schlägt Menge

Die Chroma-Studie zeigt: Strukturierter Kontext performt besser als chaotische Informationsflut.

Praktisch:

Statt:

Einen 2.000-Wörter-Firmen-Backstory-Roman schreiben.

Besser:

Strukturierte Informationen:

## Unternehmen
- Branche: B2B-SaaS
- Team: 5 Personen
- Umsatz: 80k € / Jahr

## Produkt
- Projektmanagement für Agenturen
- Zielgruppe: 10-50 MA

## Ziel
- 200k € Umsatz in 12 Monaten

## Budget & Ressourcen
- Marketing-Budget: 1.000 € / Monat
- Zeit: 10h / Woche

## Frage
Welche 3 Marketing-Kanäle priorisieren?

Ergebnis:

Das Modell kann die Informationen schneller verarbeiten und fokussierter antworten.

Praktische Experimente zum Nachvollziehen

Du musst mir das nicht glauben. Test es selbst.

Test 1: Vorwissen dominiert

Setup:

Öffne zwei frische ChatGPT-Chats (Inkognito-Modus oder zwei Accounts).

Frage (in beiden):

„Was ist eine gute Marketing-Strategie für KMU?”

Erwartung:

90% identische Antworten.

Was du siehst:

Dieselben Themen (Content Marketing, SEO, Social Media)
Ähnliche Struktur
Vielleicht andere Formulierung, aber gleicher Inhalt

Beweis:

Vorwissen ist die Hauptquelle.

Test 2: Kontext verändert

Setup:

Zwei frische Chats.

Chat A:

„Empfiehl mir ein CRM.”

Chat B:

„Empfiehl mir ein CRM für 3-Personen-Team, B2B-Dienstleistung, Gmail-Integration, Budget 50 €/Monat.”

Erwartung:

Komplett unterschiedliche Antworten.

Was du siehst:

Chat A: Generische Top-5-Liste
Chat B: Spezifische Empfehlung (z. B. Pipedrive oder HubSpot Free)

Beweis:

Kontext formt die Antwort.

Test 3: Profiling ist subtil

Setup:

Account A (neu), Account B (mit 3 Monaten Lauf-Historie).

Frage (in beiden):

„Empfiehl mir einen Laufschuh.”

Erwartung:

70-80% Überschneidung, aber Account B bekommt spezifischere Empfehlung.

Was du siehst:

Account A: Generisch („Was ist dein Laufstil?”)
Account B: Personalisiert („Für deine Halbmarathon-Distanzen…”)

Beweis:

Profiling wirkt, aber ist nicht dominant.

Warum dieses Verständnis wichtig ist

Jetzt weißt du, wie KI-Antworten entstehen. Warum ist das wichtig?

1. Für realistische Erwartungen

KI ist kein Orakel.

Es ist ein statistisches System, das aus drei Quellen Antworten zusammensetzt.

Das bedeutet:

KI kann halluzinieren (wenn Vorwissen lückenhaft ist)
KI kann inkonsistent sein (wegen Sampling)
KI kann veraltet sein (Vorwissen endet am Trainingsdatum)

Realistische Erwartung:

KI ist ein Werkzeug, kein Ersatz für Denken.

2. Für bessere Prompts

Jetzt weißt du, wo du Hebel hast:

Vorwissen: Kein Hebel (fix)
Profiling: Minimaler Hebel (zu klein, reguliert)
Kontext: Voller Hebel (du kontrollierst ihn)

Was du tun kannst:

Investiere Zeit in guten Kontext, nicht in „perfekte Prompts”.

Es gibt keinen perfekten Prompt. Es gibt nur relevanten Kontext.

3. Für kritisches Hinterfragen

Wenn du verstehst, woher Antworten kommen, kannst du sie besser bewerten:

Vorwissen-lastig? → Prüfe Quellen, könnte veraltet sein
Kontext-basiert? → War mein Kontext vollständig?
Profiling-beeinflusst? → Ist die Personalisierung korrekt?

Praktisch:

Mehrfach fragen: Gleiche Frage, 3 Chats → Vergleiche Antworten
Quellen prüfen: „Nenne mir 3 Studien, die das belegen”
Extern checken: KI als Ausgangspunkt, dann Google Scholar / Fachliteratur

Niemals:

Kritische Entscheidungen auf einer KI-Antwort basieren.

Die Mechanik verstehen macht dich besser

KI ist kein Mysterium. Es ist Mechanik.

Drei klare Komponenten:

Vorwissen (60-80%) – das meiste
Kontext (20-40%) – dein Hebel
Profiling (<10%) – nett, aber klein

Was du mitnehmen solltest:

Kontext ist dein Werkzeug – nutze ihn strukturiert, nicht inflationär
Mehr ≠ besser – Chroma-Studie zeigt: Relevanz > Menge
Varianz ist normal – Sampling macht jede Antwort einzigartig
Verstehen > Glauben – je besser du die Mechanik kennst, desto gezielter nutzt du sie

Die nächste Frage:

Was passiert, wenn du keinen guten Kontext lieferst?

Dann kommt Teil 2 dieser Serie: Warum 80% aller KI-Antworten Einheitsbrei sind – und wie du das vermeidest.

Weiterführende Artikel

KI praktisch nutzen

ChatGPT Projects: Strukturierte KI-Unterstützung für KMU – Effizient mit ChatGPT arbeiten
KI-Sichtbarkeit für kleine Unternehmen – Praktische Schritte nach Branche

E-Commerce & KI

AI Search Optimization für Onlineshops – Sieben Maßnahmen für KI-Produktempfehlungen
Google Merchant Center richtig nutzen – Strukturierte Produktdaten für KI-Systeme

SEO & Beyond

Semantic SEO 2025: Warum Keywords tot sind – Semantisches SEO und nutzerzentrierte Antworten
Beyond SEO – AEO: Antworten statt Rankings – Präzise, zitierbare Inhalte für KI-Antworten