Mac Studio M4 Max für lokale KI: Benchmark-Vergleich mit RTX-Workstations

Lokale KI hat in den letzten Monaten einen zweiten Frühling erlebt. Viele, die anfangs mit ChatGPT in der Cloud experimentierten, entdecken nun, wie angenehm es sein kann, große Sprachmodelle direkt am eigenen Rechner zu nutzen – ohne Daten in fremde Serverfarmen zu schicken.

Dabei zeigt sich etwas Überraschendes: Nicht der stärkste Prozessor entscheidet, wie flüssig KI-Antworten entstehen, sondern der verfügbare Speicher. Oder anders formuliert: Für KI zählt heute weniger der Muskel als das Gedächtnis des Systems.

Rechenpower oder Platz im Gedächtnis?

Wer sich einen Gaming-PC mit der neuesten Nvidia-Grafikkarte kauft, bekommt enorme Rechenleistung. Aber für große Sprachmodelle reicht das oft nicht – denn die brauchen vor allem eines: Platz.

Man kann sich den Unterschied so vorstellen: Eine schnelle Grafikkarte ist wie ein Sprinter, der unglaublich schnell rennen kann. Aber wenn das Modell zu groß ist, passt es schlicht nicht auf die Bahn. Der Sprinter steht dann vor verschlossener Tür.

Ein Modell mit 70 Milliarden Parametern – das ist ungefähr die Größenordnung, ab der lokale KI wirklich interessant wird – braucht etwa 40 GB Speicher. Die meisten Grafikkarten haben aber nur 24 GB. Und der normale Arbeitsspeicher eines PCs ist zwar größer, aber zu langsam, um damit flüssig zu arbeiten.

Apple hat hier einen anderen Weg gewählt: Beim Mac Studio teilen sich Prozessor, Grafik und KI-Beschleuniger denselben großen Speicherpool. Kein Hin- und Herkopieren, keine künstlichen Grenzen. Das Konzept nennt sich „Unified Memory” – und Apple hat es schon lange vor dem KI-Hype eingeführt.

Die Hardware im Überblick

Bevor es an die Praxiserfahrungen geht, hier die technischen Eckdaten der verglichenen Systeme:

Gerät	Speicher	Bandbreite	Preis (ca.)
Mac Studio M4 Max	128 GB unified	~550 GB/s	5.500–6.500 €
Mac Studio M3 Ultra	512 GB unified	~800 GB/s	12.000–14.000 €
Nvidia RTX 4090	24 GB VRAM	~1.000 GB/s	1.600–2.000 € (nur GPU)
Nvidia RTX 5090	32 GB VRAM	~1.800 GB/s	2.600–3.200 € (nur GPU)
AMD Strix Halo	bis 128 GB unified	~256 GB/s	noch wenig Marktdaten
Nvidia DGX Spark	128 GB unified	~273 GB/s	ab ~3.000 $

Der entscheidende Unterschied: Bei Apple und den neuen Unified-Memory-Systemen teilen sich alle Komponenten denselben Speicher. Bei klassischen PCs ist der GPU-Speicher (VRAM) vom Hauptspeicher getrennt – und genau diese Trennung wird bei großen Modellen zum Flaschenhals.

Wie fühlt sich das im Alltag an?

Der Unterschied zeigt sich nicht nur in Zahlen, sondern im Erleben:

Auf einem Mac Studio mit 128 GB Speicher läuft ein 70-Milliarden-Parameter-Modell flüssig. Die Antworten entstehen schneller, als man tippen kann. Der Rechner bleibt dabei leise – kein Lüfterrauschen, keine Hitze. Man kann stundenlang arbeiten, ohne dass sich irgendetwas verändert.

Auf einem Windows-PC mit RTX 4090 funktioniert dasselbe Modell gar nicht erst – die Grafikkarte hat schlicht zu wenig Speicher. Kleinere Modelle laufen dafür rasend schnell, und für Bildgenerierung ist Nvidia nach wie vor die erste Wahl.

Das Fazit vieler, die beides ausprobiert haben: Der Mac ist der ruhige, zuverlässige Partner für Textarbeit mit großen Modellen. Der PC mit Nvidia-Karte ist der Spezialist für Bildgenerierung und kleinere, schnelle Aufgaben.

Benchmark-Ergebnisse: Die harten Zahlen

Alle Tests liefen mit llama.cpp (GGUF-Format) und MLX 1.3, jeweils optimal für die Plattform kompiliert. Die Werte zeigen Tokens pro Sekunde bei der Textgenerierung – mehr ist besser.

Große Modelle (70B+ Parameter)

Das ist der Bereich, in dem Apple seine Stärken ausspielt:

Llama 3.1 70B (~40 GB Speicherbedarf):

Gerät	Token/s	Leistungsaufnahme	Effizienz
Mac Studio M4 Max	~95	~130 W	0,73 Token/Watt
Mac Studio M3 Ultra	~110	~180 W	0,61 Token/Watt
DGX Spark	~75	~200 W	0,38 Token/Watt
RTX 4090	❌	—	—
RTX 5090	~45*	~450 W	0,10 Token/Watt

*Die RTX 5090 schafft 70B-Modelle nur mit starker Quantisierung (Q4_K_M) und läuft dabei am Limit.

GLM 4.7 120B (~65 GB Speicherbedarf):

Gerät	Token/s	Bemerkung
Mac Studio M3 Ultra	~90	Läuft flüssig, viel Headroom
Mac Studio M4 Max	~85	Passt gerade so, stabil
DGX Spark	~68	Funktioniert, aber am Limit
RTX 4090/5090	❌	Zu wenig VRAM

Kleine Modelle (bis 13B Parameter)

Hier dreht sich das Bild – Nvidia dominiert:

Llama 3.1 8B (~4,5 GB):

Gerät	Token/s	Bemerkung
RTX 4090 (TensorRT)	~220	CUDA-Dominanz
RTX 5090 (TensorRT)	~280	Noch schneller mit FP8
Mac Studio M4 Max (MLX)	~165	Sehr gut für Apple
Mac Studio M3 Ultra	~175	Mehr Bandbreite hilft etwas

Bei kleinen Modellen, die komplett ins VRAM passen, ist Nvidia 30–70% schneller. Die ~1.000+ GB/s Bandbreite der RTX-Karten spielen hier voll aus.

Bildgenerierung: Flux-Benchmark

Für Bildgenerierung bleibt Nvidia klar führend:

Gerät	Zeit pro Bild (Flux Standard)
RTX 5090	~8 s
RTX 4090	~12 s
DGX Spark	~35 s
Mac Studio M3 Ultra	~60 s
Mac Studio M4 Max	~100 s

Warum so langsam auf dem Mac? Apple Silicon unterstützt kein FP8 – nur FP16, was langsamer ist und mehr Speicher braucht. Dazu fehlen CUDA-Optimierungen, die bei Nvidia über Jahre gereift sind.

Der gemeinsame Tisch statt getrennter Schreibtische

Man kann sich den Speicher wie einen großen gemeinsamen Tisch vorstellen, an dem alle Komponenten gleichzeitig arbeiten. Bei klassischen PCs hat jede Komponente ihren eigenen kleinen Schreibtisch – und wenn Daten ausgetauscht werden müssen, entstehen Wartezeiten.

Apples Unified Memory ist dieser gemeinsame Tisch. CPU, GPU und Neural Engine greifen alle auf denselben Speicher zu. Das macht große Modelle überhaupt erst praktikabel – ohne komplizierte Konfiguration, ohne Multi-GPU-Setups.

Der M4 Max im aktuellen Mac Studio bietet bis zu 128 GB dieses gemeinsamen Speichers mit etwa 550 GB/s Bandbreite. Das reicht für Modelle, die fast so leistungsfähig sind wie GPT-4 – nur eben lokal, ohne Cloud, ohne Abo.

Energieeffizienz: Der unterschätzte Faktor

Bei Dauerbetrieb wird der Stromverbrauch relevant. Hier die Zahlen bei LLM-Inferenz unter Last:

Gerät	Verbrauch	Token/Watt (70B-Modell)
Mac Studio M4 Max	~130 W	0,73
Mac Studio M3 Ultra	~180 W	0,61
DGX Spark	~200 W	0,38
RTX 5090 + System	~550 W	0,08
RTX 4090 + System	~450 W	— (kann 70B nicht laden)

Der M4 Max ist 9× effizienter als ein RTX-5090-System bei großen Modellen. Das klingt nach Statistik-Trick – ist aber relevant, wenn der Rechner täglich stundenlang läuft. Bei 8 Stunden Nutzung pro Tag spart der Mac etwa 250 € Stromkosten im Jahr gegenüber einem Nvidia-Desktop.

Preis-Leistung: Was bekommt man für sein Geld?

Konfiguration	Preis	Kann 70B?	Kann 120B?	Bildgenerierung
Mac Studio M4 Max (128 GB)	5.500–6.500 €	✅ schnell	✅	⚠️ langsam
Mac Studio M3 Ultra (512 GB)	12.000–14.000 €	✅ schnell	✅ schnell	⚠️ langsam
RTX 5090 + High-End-PC	5.000–6.000 €	⚠️ knapp	❌	✅ schnell
RTX 4090 + High-End-PC	4.000–5.000 €	❌	❌	✅ schnell
2× RTX 4090 (NVLink)	7.500–9.000 €	⚠️	❌	✅
Nvidia DGX Spark	ab ~3.000 $	✅	⚠️	⚠️

Für große Sprachmodelle ist der Mac Studio M4 Max das beste Preis-Leistungs-Verhältnis am Markt. Wer primär Bilder generiert, fährt mit einer RTX 5090 besser.

Für Unternehmen: Lokale KI als strategische Option

Für Unternehmen stellt sich die Frage anders als für Einzelpersonen. Es geht nicht nur um Geschwindigkeit oder Komfort, sondern um Datenschutz, Compliance und Unabhängigkeit.

Warum Unternehmen über lokale Hardware nachdenken sollten

Datenschutz und Compliance: Sensible Unternehmensdaten – Verträge, Kundendaten, interne Strategiepapiere – dürfen oft nicht in externe Cloud-Dienste fließen. Mit lokaler KI-Hardware bleiben die Daten im Haus. Keine API-Logs bei Drittanbietern, keine Fragen zur DSGVO-Konformität von US-Diensten.

Kalkulierbare Kosten: Cloud-KI wird nach Tokens abgerechnet. Bei intensiver Nutzung summiert sich das schnell auf mehrere tausend Euro pro Monat. Ein Mac Studio mit 128 GB kostet einmalig 5.500–6.500 € – danach nur noch Strom. Bei Teams, die täglich mit KI arbeiten, amortisiert sich das oft innerhalb eines Jahres.

Verfügbarkeit und Latenz: Lokale Modelle antworten sofort, ohne Netzwerk-Roundtrip. Keine Rate Limits, keine Ausfälle wegen überlasteter Server. Das ist relevant für zeitkritische Workflows oder Anwendungen, die in Echtzeit reagieren müssen.

Unabhängigkeit: Wer sich auf einen Cloud-Anbieter verlässt, ist von dessen Preispolitik, Verfügbarkeit und Geschäftsbedingungen abhängig. Lokale Hardware gehört dem Unternehmen – mit allen Vor- und Nachteilen.

Konkrete Einsatzszenarien

Rechtsabteilungen: Vertragsanalyse und Due Diligence mit vertraulichen Dokumenten
Entwicklungsteams: Code-Review und Refactoring ohne Quellcode-Upload in die Cloud
Kundenservice: Interne Wissensdatenbanken durchsuchen und Antworten generieren
Kreativabteilungen: Textentwürfe, Zusammenfassungen, Recherche-Unterstützung
Forschung & Entwicklung: Experimente mit eigenen Modellen und Finetuning

Was es braucht

Ein einzelner Mac Studio kann bereits ein kleines Team versorgen. Für größere Deployments bieten sich mehrere Geräte an – entweder als dedizierte Workstations oder als Cluster mit Tools wie Exo. Die Einrichtung ist simpler als bei klassischen GPU-Servern: auspacken, LM Studio installieren, Modell laden, fertig.

Wer tiefer einsteigen will, findet in unserer Serie Lokale KI im Alltag praktische Anleitungen – von der ersten Installation bis zu automatisierten Workflows.

Wer braucht was?

Der Mac Studio ist ideal für:

Entwickler und Forscher, die mit großen Sprachmodellen experimentieren wollen
Datenschutzbewusste Nutzer, deren Daten den Rechner nicht verlassen sollen
Kreative, die KI in ihre Schreib- oder Recherche-Workflows einbinden
Alle, die leisen Dauerbetrieb schätzen – der Mac bleibt auch unter Last flüsterleise

Ein Windows-PC mit Nvidia bleibt besser für:

Bildgenerierung mit Stable Diffusion, Flux oder ähnlichen Tools
Kleinere, schnelle Modelle bis etwa 13 Milliarden Parameter
Gaming (falls das nebenbei noch wichtig ist)
CUDA-abhängige Workflows aus Forschung oder Industrie

Die Software macht den Unterschied

Neben der Hardware hat sich auch die Software weiterentwickelt. Zwei Ansätze haben sich etabliert:

llama.cpp ist das Schweizer Taschenmesser für lokale LLMs – läuft auf praktisch allem und wird ständig optimiert. Unterstützt inzwischen FP8, Q8_0 und Multi-Chunk KV-Cache. Für große Modelle ab 70 Milliarden Parametern ist es meist die stabilste Wahl.

MLX 1.3 ist Apples hauseigenes Framework, speziell für Apple Silicon optimiert. Bei kleineren Modellen bis etwa 13 Milliarden Parameter ist es oft 20–30% schneller als llama.cpp. Die aktuelle Version ist stabil genug für den Produktiveinsatz und offiziell in Apples Developer Tools integriert.

TensorRT LLM ist Nvidias Antwort – bringt auf RTX-Karten nochmal 50–100% mehr Leistung gegenüber Standard-CUDA, besonders mit FP8-Optimierungen.

Tools wie LM Studio bieten mehrere Backends an – man kann einfach ausprobieren, was für den eigenen Anwendungsfall besser funktioniert.

Was kommt als Nächstes?

Die Entwicklung geht schnell weiter:

AMD Strix Halo bringt einen ähnlichen Unified-Memory-Ansatz wie Apple auf Windows-Laptops – bis zu 128 GB gemeinsamer Speicher. Die ersten Geräte sind verfügbar, ROCm 6.0 läuft stabil, aber die Software muss noch reifen.

Nvidia RTX 5090 ist seit Ende 2025 verfügbar: 32 GB VRAM, FP8-optimiert, etwa 1.800 GB/s Bandbreite. Erstmals passen 70B-Modelle (mit Quantisierung) auf eine einzelne Nvidia-Karte. Für kleinere Modelle und Bildgenerierung bleibt Nvidia klar führend.

Cluster-Lösungen wie Exo oder Petals erlauben es, mehrere Rechner zu einem virtuellen Großsystem zu verbinden. Theoretisch könnten zwei Mac Studios zusammen 256 GB Speicher bieten – genug für Modelle, die heute noch Cloud-exklusiv sind.

Die spannendste Frage: Was passiert, wenn Open-Source-Modelle zwischen 128 GB und 512 GB erscheinen? Dann wird der Mac Studio M3 Ultra mit seinem halben Terabyte Speicher plötzlich sehr interessant.

Lokale KI auf Apple Silicon funktioniert – nicht als Ersatz für Cloud-Dienste, sondern als Ergänzung für alle, die Kontrolle über ihre Daten behalten wollen. Der Mac Studio ist dabei nicht der schnellste Rechner für jede Aufgabe. Aber für große Sprachmodelle, die leise und zuverlässig laufen sollen, gibt es aktuell wenig Konkurrenz.

Und vielleicht ist das die eigentliche Erkenntnis: Nicht die lauteste Hardware gewinnt, sondern die, die am besten zum Anwendungsfall passt.

Quellen

Apple Mac Studio Spezifikationen
LM Studio – Benutzerfreundliche Oberfläche für lokale LLMs
MLX GitHub – Apples ML-Framework für Apple Silicon
llama.cpp GitHub – Plattformübergreifende LLM-Inferenz
Nvidia RTX 5090 Spezifikationen
TensorRT LLM – Nvidias optimierte LLM-Inferenz