Wie LLMs technisch funktionieren – und warum Größe nicht alles ist

Manchmal öffnet man in LM Studio zwei verschiedene Sprachmodelle, stellt dieselbe Frage – und bekommt fast identische Antworten. Das eine Modell hat 7 Milliarden Parameter, das andere 70 Milliarden. Sollte das größere nicht zehnmal klüger sein?

Diese Beobachtung ist kein Zufall, sondern ein Hinweis darauf, dass Größe allein nicht erklärt, wie ein Modell denkt. Wer versteht, was im Inneren passiert, trifft bessere Modellentscheidungen und schreibt Prompts gezielter – arbeitet also mit dem Modell, nicht dagegen.

Warum man wissen sollte, was im Kopf der Maschine passiert

Lokale LLMs sind Werkzeuge. Wer nur die Oberfläche kennt, behandelt sie wie Black Boxes, die mal helfen, mal stören. Wer das Innenleben versteht, kann gezielt Entscheidungen treffen: Welches Modell passt zu welcher Aufgabe? Reicht ein 7B-Modell für Recherche? Wann lohnt sich ein 70B-Gigant wirklich?

Dieses Wissen ist der Unterschied zwischen „irgendwie prompten“ und produktivem Arbeiten mit KI.

Was steckt hinter einem LLM? Eine einfache Anatomie

Ein Large Language Model ist ein gigantisches neuronales Netz, trainiert darauf, die wahrscheinlichste Textfortsetzung vorherzusagen – Token für Token.

Milliarden Parameter wirken dabei wie Stellschrauben, die bestimmen, wie stark Signale weitergegeben werden. Im Training justiert das Modell diese Werte, um Muster in Sprache zu erkennen: Grammatik, Stil, semantische Beziehungen. Das Ergebnis ist ein numerischer Abdruck menschlicher Sprache – kein Bewusstsein, sondern Statistik, brillant angewendet.

Tokens, Kontextfenster und die Illusion des Gedächtnisses

LLMs verarbeiten keine Wörter, sondern Tokens – Textbausteine, die oft, aber nicht immer, einem Wort entsprechen. „KI“ kann ein Token sein, „Verantwortungsbewusstsein“ vielleicht fünf. Entscheidend ist das Kontextfenster, also die Menge an Tokens, die das Modell gleichzeitig „sehen“ kann.

Neue Modelle dehnen dieses Fenster aus:

Mistral oder Phi-3 arbeiten meist mit 8k bis 32k Tokens.
Claude 3.5 oder GLM 4.6 kommen auf 200k Tokens – genug für Bücher oder Forschungsberichte.

Doch jedes zusätzliche Token kostet Rechenleistung, Strom und Speicher. Ein riesiges Fenster macht Modelle träge. Deshalb ist es oft klüger, mit kondensierten Kontexten zu arbeiten – gezielte, strukturierte Prompts statt „Alles auf einmal reinwerfen“. Gerade lokal merkt man: Die Kunst liegt im Verdichten, nicht im Volumen.

Warum 7B, 13B oder 70B kein Maß für Intelligenz sind

Die Modellgröße sagt lediglich, wie viele Zahlen das Modell in sich trägt. Mehr bedeutet theoretisch mehr Muster, Wissen und Nuancen. In der Praxis zählen jedoch drei Faktoren stärker: Architektur, Trainingsdaten und Fine-Tuning.

Ein 7B-Modell mit sauber kuratierten Daten kann ein 70B-Modell mit zusammengewürfelten Internettexten übertreffen.
Fine-Tuning schärft Modelle für bestimmte Aufgaben: Schreiben, Codieren, Zusammenfassen, Übersetzen.
Spezialisierte Modelle wie Hermes 2 Pro 13B brillieren im Dialog, obwohl sie deutlich kleiner als Llama 3.3 70B sind.

Größe ist also kein Qualitätsgarant, sondern eher eine Frage danach, wie fein Wissen im Modell organisiert ist.

Quantisierung: Giganten schrumpfen, ohne zu verdummen

Quantisierung komprimiert Modelle, indem Gewichte mit weniger Bits gespeichert werden. Statt 16 oder 32 Bit reichen 8 oder 4 – mit erstaunlich geringem Präzisionsverlust. Formate wie GGUF machen Modelle, die früher 120 GB groß waren, auf einmal 10 bis 15 GB leicht.

Damit wird lokale KI alltagstauglich: Ein Laptop mit 32 GB RAM kann heute Modelle ausführen, die vor zwei Jahren nur in der Cloud liefen.

Inference: Wenn das Modell „denkt“

Training verschlingt Milliarden GPU-Stunden. Inference ist der Moment, in dem das Modell Output liefert: Es erhält einen Prompt, wandelt ihn in Tokens um und berechnet auf Basis der Gewichte das wahrscheinlich nächste Token. Dann wiederholt es den Prozess – hunderte Male pro Sekunde.

Das wirkt wie Denken, ist aber eine Kettenreaktion von Wahrscheinlichkeiten. In LM Studio merkt man Inference besonders: Modelle reagieren flüssiger, wenn SSDs schnell sind oder ausreichend VRAM zur Verfügung steht. Antwortqualität hängt also nicht nur vom Modell, sondern auch vom Rechner ab.

Weniger ist manchmal mehr: Der Charme kleiner Modelle

Kleine Modelle sind oft schneller, folgsamer und weniger halluzinationsanfällig. Sie interpolieren über weniger Muster und lassen sich präziser steuern.

Praktische Kombinationen in LM Studio könnten sein:

Phi-3 Mini 3.8B für schnelle Notizen und Textideen
Mistral 7B Q4_K_M für kreatives Brainstorming
Hermes 13B Q8_0 für Code, Logik und längere Analysen

Statt nach dem „einen perfekten Modell“ zu suchen, entsteht so ein persönliches Modellökosystem aus spezialisierten Helfern.

Wie man das richtige Modell auswählt

Jedes Modell erscheint in Varianten: 7B, 13B, 33B – und jeweils mit unterschiedlichen Quantisierungen (Q4, Q5, Q8). Eine einfache Faustregel hilft beim Einstieg:

Texte, Ideen, Brainstorming: 7B reicht oft völlig.
Code, Logik, technische Erklärungen: 13B bis 33B.
Forschung oder tiefes Wissen: 70B und mehr – meist auf Servern sinnvoller als lokal.

Wichtig ist, ein Modell wirklich kennenzulernen. Wer Temperature, Top-P oder Repetition Penalty anpasst, stimmt das Modell wie ein Instrument. So entsteht Kontrolle über Stil, Tempo und Risikobereitschaft.

Schlussgedanke: Größe ist nur ein Teil der Intelligenz

Große Modelle sind wie Enzyklopädien – beeindruckend, aber schwer zu tragen. Kleine Modelle gleichen Notizbüchern – flexibel, handlich, stets griffbereit.

Die wahre Intelligenz entsteht durch Balance: Architektur, Datenqualität, Kontextnutzung und menschliche Lenkung. Vielleicht liegt die Zukunft der KI gar nicht im nächsten Giganten, sondern im besser verstandenen Werkzeug – lokal, leicht, lernbar.

Im nächsten Teil der Serie schauen wir uns an, wie man solche Modelle konkret installiert, konfiguriert und im Alltag einbindet – ganz ohne Cloud, dafür mit viel Kontrolle über das eigene KI-Setup.

Insights