Hardware-Realität: Was dein Rechner wirklich leisten muss
Wieviel Power lokale Sprachmodelle in der Praxis verlangen
SerieLokale KI im Alltag
Teil 5 von 10
Lokale KI klingt nach Freiheit – bis die Realität als Fehlermeldung aufpoppt: Out of memory. Viele, die sich an eigene Sprachmodelle wagen, stoßen genau dort an Grenzen, wo die Begeisterung am größten ist: bei der Hardware. Die Leistung des Rechners ist der unsichtbare Rahmen jedes KI-Experiments.
Doch wie viel Power braucht man wirklich, um Modelle wie Llama 3 oder GLM 4.6 vernünftig zu nutzen? Und ab wann ist „mehr“ nur noch teure Bequemlichkeit? Der Blick in die Praxis zeigt: Es geht weniger um rohe Zahlen als um Balance – zwischen Strom, Speicher und Spaß.
Zwischen Traum und Thermik
Sprachmodelle sind gigantische Wahrscheinlichkeitsmaschinen. Jede Eingabe – jedes Token – wandert durch zahllose Matrizen, multipliziert, gewichtet, normalisiert. Das braucht Bandbreite und Speicher, vor allem, wenn das Kontextfenster groß ist.
Zwei Ressourcen zählen wirklich: RAM (bei CPU- oder Apple-Silicon-Setups) und VRAM (bei dedizierten GPUs).
- CPU: universell, kann alles, aber langsam.
- GPU: viele Rechenkerne, perfekt für Matrixmultiplikation.
- Neural Engine / Tensor Core: hochspezialisierte Beschleuniger, sofern das Modell dafür optimiert ist.
Wer einmal ein Modell ausschließlich auf der CPU laufen ließ, versteht schnell, warum GPUs das Herz jeder LLM-Installation sind: 50 Sekunden pro Antwort sind keine Geduldsprobe, sondern eine Vorlesung in Geduld.
Apple Silicon: Effizienz durch Einheit
Apple löst das Problem mit Unified Memory Architecture (UMA). CPU, GPU und Neural Engine greifen auf denselben Speicher zu – keine Kopien, kein Overhead.
- 16 GB RAM: 7B-Modelle in 4-Bit-Quantisierung (z. B. Mistral 7B, Llama 3 8B) laufen souverän.
- 32 GB RAM: 13B-Modelle werden angenehm nutzbar.
- 48 GB RAM: bis 33B-Modelle wie GLM 4.6 Q4 laufen flüssig.
- 64 GB+ (M4 Max/Ultra): auch 70B-Modelle, solange man etwas Geduld mitbringt.
Die M-Serie liefert Tablet-Stromverbrauch mit Workstation-Leistung. Ergebnis: leiser Betrieb, kühles Gehäuse, kaum Lüftergeräusche – ideal für lange Sessions.
Windows-PC mit RTX-GPU: Rohe Kraft, aber hungrig
Der klassische PC setzt auf modulare Power. Eine dedizierte Grafikkarte mit eigenem VRAM, optimiert via CUDA und Tensor Cores, liefert atemberaubende Performance – jedoch mit hohem Energiebedarf.
Praxiswerte nach GPU:
- RTX 4060 (8 GB VRAM): bis 7B-Modelle.
- RTX 4070 / 4070 Ti (12 GB): 13B bis 33B.
- RTX 4090 (24 GB): 70B-Modelle souverän.
Dafür zahlt man mit Strom, Hitze und Lüftergeräuschen. Ein RTX-System verwandelt Watt in Tokens – und Luft in Fönwärme. Mobil ist das unpraktisch, für Training oder Batch-Inference hingegen unschlagbar. Vorteil: Upgrades bleiben möglich, Macs sind dagegen fix konfiguriert.
RAM, VRAM und Speicherlayout: Die wahren Grenzen
Als Faustregel gilt: 1 Milliarde Parameter ≈ 1 GB RAM bei 16-Bit-Präzision. Mit 4-Bit-Quantisierung sinkt der Bedarf auf ein Viertel.
Anhaltswerte:
- 13B → 6–7 GB
- 33B → 15–20 GB
- 70B → 35–40 GB
Ebenso wichtig ist die Speicherbandbreite:
- Apple Silicon ≈ 300 GB/s
- RTX 4090 ≈ 1000 GB/s
Kurz gesagt: Apple holt viel Effizienz aus weniger Ressourcen, Nvidia antwortet mit schierer Bandbreite – beides hat seinen Reiz.
Benchmarks und Praxiswerte
Zahlen sind hilfreich, aber nur ein Teil der Wahrheit. Ein Beispiel:
- Llama 3 13B auf M4 Pro (48 GB): 20–25 Token/s
- GLM 4.6 33B auf M4 Pro (48 GB): rund 12 Token/s
- Llama 3 70B auf RTX 4090: 50+ Token/s
Ein stabiler Fluss von 15 Token/s fühlt sich in der Praxis oft besser an als 60 Token/s mit Abstürzen. Performance ist kein Sprint, sondern ein Dauerlauf.
Thermik, Lautstärke und Alltagstauglichkeit
Apple-Rechner bleiben leise, kühl und mobil – perfekt für Entwickler, Texter oder Research-Workflows. Windows-Rechner mit RTX sind stationäre Arbeitstiere: laut, aber extrem stark. Ideal für komplexe Inferenz-Pipelines, Modelltraining oder Agentensysteme.
Ich arbeite häufig auf einem MacBook M3 Max – GLM 4.6 läuft dort stundenlang stabil, und der Lüfter bleibt so gelassen wie ein Zen-Mönch.
Empfehlungen nach RAM-Ausstattung
- 16 GB: 7B-Modelle, leichte Chatbots, Notizen, Texterkennung.
- 32 GB: 13B-Modelle, Recherche, Coding, Agenten mit mittlerem Kontext.
- 48 GB: bis 33B (z. B. GLM 4.6) – der Sweet Spot für Power-User.
- 64 GB+: 70B-Modelle oder parallele Sessions – für Enthusiasten und Forscher.
Praktische Tipps aus Erfahrung
- SSD statt HDD: verkürzt Ladezeiten massiv.
- Modelle extern auf NVMe-SSD: schnelle Zugriffe, entlastet internen Speicher.
- Lüftung freihalten: LLMs belasten CPU/GPU dauerhaft.
- Netzbetrieb bevorzugen: Akkus mögen keine Dauerlast.
- Systemmonitor im Blick behalten:
htop, Activity Monitor oder Stats zeigen, wann es eng wird.
Schlussgedanke: Leistung ist nicht nur eine Zahl
Das erste Mal, wenn ein 13B-Modell lokal und stabil antwortet, fühlt sich fast magisch an – nicht wegen der Geschwindigkeit, sondern weil es zeigt, was möglich ist.
Benchmarks verblassen, wenn der Rechner ruhig summt und verlässlich arbeitet. Effizienz, Ruhe und Zuverlässigkeit zählen mehr als Gigahertz oder Frames. Am Ende lautet die Frage nicht „Kann mein Rechner das?“, sondern „Wie viel davon macht mir wirklich Freude?“
Im nächsten Teil der Serie schauen wir uns an, wie man aus dieser Hardware stabile Automatisierungen baut – von lokalen APIs bis zu eigenen Agenten.