Neuronale Netze verstehen: Grundlagen für Einsteiger

Neuronale Netze sind das Fundament moderner künstlicher Intelligenz. Von Sprachmodellen wie ChatGPT über Bildgeneratoren bis hin zu autonomen Fahrzeugen – überall arbeiten neuronale Netze im Hintergrund. Doch wie funktionieren sie eigentlich? Dieser Artikel erklärt die Grundlagen, ohne in mathematische Tiefen abzutauchen.

Was ist ein neuronales Netz?

Ein neuronales Netz ist ein Rechenmodell, das lose vom menschlichen Gehirn inspiriert ist. Es besteht aus künstlichen Neuronen, die in Schichten (Layers) organisiert sind und Informationen verarbeiten.

Das künstliche Neuron

Ein einzelnes Neuron führt eine einfache Berechnung durch:

Eingaben empfangen: Mehrere Zahlenwerte kommen an
Gewichten: Jede Eingabe wird mit einem Gewicht multipliziert
Summieren: Alle gewichteten Eingaben werden addiert
Aktivieren: Eine Aktivierungsfunktion entscheidet, ob und wie stark das Neuron “feuert”

Eingabe 1 → [×Gewicht 1] ─┐
Eingabe 2 → [×Gewicht 2] ─┼→ [Summe] → [Aktivierung] → Ausgabe
Eingabe 3 → [×Gewicht 3] ─┘

Die Gewichte sind das “Wissen” des Netzes. Beim Training werden sie so angepasst, dass das Netz die gewünschte Aufgabe lernt.

Von einem zu vielen Neuronen

Ein einzelnes Neuron kann nur einfache Entscheidungen treffen. Die Magie entsteht durch die Kombination vieler Neuronen in Schichten:

Eingabeschicht: Nimmt die Rohdaten auf (z.B. Pixel eines Bildes)
Verborgene Schichten: Extrahieren zunehmend abstrakte Merkmale
Ausgabeschicht: Liefert das Ergebnis (z.B. “Katze” oder “Hund”)

Je mehr verborgene Schichten, desto “tiefer” das Netz – daher der Begriff Deep Learning.

Die zwei Kernoperationen

Im Kern führt ein neuronales Netz nur zwei Operationen aus, allerdings milliardenfach:

1. Matrix-Multiplikation

Wenn Daten durch eine Schicht fließen, werden sie mit einer Gewichtsmatrix multipliziert. Bei einem Netz mit 1.000 Eingabe- und 1.000 Ausgabe-Neuronen bedeutet das:

1.000 × 1.000 = 1.000.000 Multiplikationen
Plus 1.000.000 Additionen

Pro Schicht. Pro Eingabe. Bei großen Sprachmodellen mit hunderten Schichten und Milliarden Parametern summiert sich das schnell.

2. Aktivierungsfunktion

Nach der Matrix-Multiplikation kommt eine nicht-lineare Funktion, die entscheidet, welche Neuronen aktiv werden:

ReLU (Rectified Linear Unit): Der Klassiker

Negative Werte werden zu 0
Positive Werte bleiben unverändert
Sehr schnell zu berechnen

Sigmoid: Quetscht Werte zwischen 0 und 1

Gut für Wahrscheinlichkeiten
Kann bei tiefen Netzen problematisch sein

Softmax: Für die Ausgabeschicht bei Klassifikation

Wandelt Zahlen in Wahrscheinlichkeiten um
Alle Ausgaben summieren sich zu 1

Wie lernt ein neuronales Netz?

Das Training eines neuronalen Netzes folgt einem einfachen Prinzip: Fehler machen, daraus lernen, wiederholen.

Forward Pass

Die Eingabedaten fließen durch das Netz, Schicht für Schicht, bis eine Vorhersage entsteht.

Loss-Berechnung

Die Vorhersage wird mit dem tatsächlichen Ergebnis verglichen. Die Differenz ist der Loss (Verlust) – ein Maß dafür, wie falsch das Netz lag.

Backward Pass (Backpropagation)

Der Loss wird rückwärts durch das Netz propagiert. Dabei berechnet das Netz, wie stark jedes einzelne Gewicht zum Fehler beigetragen hat.

Gewichtsanpassung

Die Gewichte werden in die Richtung angepasst, die den Loss verringert. Die Schrittgröße bestimmt die Lernrate:

Zu groß: Das Netz springt über das Optimum hinweg
Zu klein: Das Training dauert ewig

Dieser Zyklus wird millionenfach wiederholt, bis das Netz die Aufgabe beherrscht.

Architekturen: Nicht jedes Netz ist gleich

Je nach Aufgabe haben sich spezialisierte Architekturen entwickelt.

Feedforward-Netze

Die einfachste Form: Daten fließen nur in eine Richtung, von Eingabe zu Ausgabe. Gut für tabellarische Daten und einfache Klassifikation.

Convolutional Neural Networks (CNNs)

Optimiert für Bilderkennung. Statt jeden Pixel einzeln zu betrachten, scannen kleine Filter (Kernel) über das Bild:

Convolutional Layer: Erkennt lokale Muster (Kanten, Texturen)
Pooling Layer: Reduziert die Auflösung, behält wichtige Informationen
Fully Connected Layer: Kombiniert alles zur finalen Entscheidung

CNNs nutzen eine clevere Beobachtung: In Bildern sind lokale Muster wichtiger als absolute Positionen. Eine Katze ist eine Katze, egal ob links oder rechts im Bild.

Recurrent Neural Networks (RNNs)

Für sequentielle Daten wie Text oder Zeitreihen. RNNs haben ein “Gedächtnis” – die Ausgabe hängt nicht nur von der aktuellen Eingabe ab, sondern auch von vorherigen.

Das Problem: Bei langen Sequenzen “vergessen” RNNs den Anfang. LSTMs (Long Short-Term Memory) lösen das teilweise, sind aber komplex und langsam.

Transformer

Die Revolution der letzten Jahre. Transformer verarbeiten alle Elemente einer Sequenz gleichzeitig statt nacheinander.

Das Geheimnis ist der Attention-Mechanismus: Jedes Element kann auf jedes andere Element “schauen” und dessen Relevanz bewerten.

"Die Katze sitzt auf der Matte. Sie ist müde."
                                 ↑
                    Worauf bezieht sich "Sie"?

Der Transformer lernt, dass “Sie” sich auf “Katze” bezieht, nicht auf “Matte” – durch Attention.

Vorteile:

Parallelisierbar (schneller zu trainieren)
Besseres Langzeitgedächtnis
Skaliert mit mehr Daten und Parametern

Nachteile:

Quadratischer Speicherbedarf mit Sequenzlänge
Enorme Rechenleistung nötig

GPT, BERT, Claude, Gemini – alle basieren auf Transformer-Architekturen.

Warum braucht KI so viel Rechenleistung?

Die Zahlen moderner Sprachmodelle sind beeindruckend:

Modell	Parameter	Training-Compute
GPT-2 (2019)	1,5 Milliarden	~40 Petaflop-Tage
GPT-3 (2020)	175 Milliarden	~3.640 Petaflop-Tage
GPT-4 (2023)	~1,8 Billionen*	~21.000+ Petaflop-Tage*

*Geschätzt, nicht offiziell bestätigt

Die drei Kostentreiber

1. Modellgröße Mehr Parameter bedeuten mehr Gewichte, die bei jedem Forward Pass multipliziert werden müssen. Ein 175-Milliarden-Parameter-Modell hat 175 Milliarden Gewichte.

2. Trainingsdaten Moderne Modelle werden auf Billionen von Tokens trainiert. Jeder Token durchläuft das komplette Netz – Forward Pass und Backward Pass.

3. Sequenzlänge Die Attention-Berechnung im Transformer skaliert quadratisch mit der Sequenzlänge. Bei 4.096 Tokens sind das 16 Millionen Attention-Berechnungen – pro Layer, pro Head.

Das Memory-Problem

Nicht nur Rechenleistung ist begrenzt, sondern auch Speicherbandbreite. Die Gewichte eines 175-Milliarden-Parameter-Modells brauchen:

FP32: 700 GB
FP16: 350 GB
INT8: 175 GB

Diese Daten müssen bei jeder Berechnung bewegt werden. Der Speichertransfer ist oft der Flaschenhals, nicht die Rechenleistung selbst.

Von der Theorie zur Hardware

Diese Eigenschaften neuronaler Netze haben direkte Konsequenzen für die Hardware:

Matrix-Multiplikationen dominieren: 90%+ der Rechenzeit geht für Matrix-Operationen drauf. Hardware, die darauf spezialisiert ist, hat einen enormen Vorteil.

Parallelität ist entscheidend: Milliarden unabhängiger Operationen können gleichzeitig ausgeführt werden. Mehr parallele Einheiten = schnellere Verarbeitung.

Speicherbandbreite limitiert: Die Daten müssen schnell genug zur Verfügung stehen. High Bandwidth Memory (HBM) und geschickte Datenwiederverwendung sind kritisch.

Reduzierte Präzision reicht oft: Neuronale Netze sind erstaunlich tolerant gegenüber Rundungsfehlern. 16-Bit oder sogar 8-Bit Berechnungen funktionieren oft genauso gut wie 32-Bit.

Diese Erkenntnisse haben zur Entwicklung spezialisierter KI-Hardware geführt: GPUs mit Tensor Cores, Googles TPUs, und zahlreiche KI-Beschleuniger. Der nächste Teil dieser Serie erklärt, wie TPUs diese Anforderungen auf Hardware-Ebene umsetzen.