Apple Silicon und die Neural Engine: KI auf dem Gerät

Nach TPUs in der Cloud schauen wir uns jetzt einen völlig anderen Ansatz an: Apples Strategie, KI-Berechnungen direkt auf dem Gerät auszuführen. Die M-Serie Chips zeigen, dass spezialisierte KI-Hardware nicht nur in Rechenzentren sinnvoll ist.

Der Apple-Unterschied: Integration statt Maximierung

Während Google TPUs und NVIDIA GPUs auf maximale Rechenleistung optimieren, verfolgt Apple ein anderes Ziel: beste Leistung pro Watt in einem integrierten System.

Ein MacBook Air hat keine aktive Kühlung. Ein iPhone hat einen winzigen Akku. Unter diesen Bedingungen muss KI anders funktionieren als im Rechenzentrum.

System on a Chip (SoC)

Apples M-Serie integriert alles auf einem Chip:

CPU: Hochleistungs- und Effizienz-Kerne
GPU: Unified Architecture
Neural Engine: Dedizierte KI-Beschleunigung
Media Engine: Video-En-/Decoding
Unified Memory: Gemeinsamer Speicher für alle

Diese Integration eliminiert einen der größten Flaschenhälse: den Datentransfer zwischen Komponenten.

Unified Memory Architecture (UMA)

Das revolutionäre Element der M-Serie ist nicht ein einzelner Beschleuniger, sondern die Speicherarchitektur.

Das Problem bei traditionellen Systemen

In einem klassischen PC:

CPU ←→ RAM (DDR5)
  ↓
PCIe Bus
  ↓
GPU ←→ VRAM (GDDR6/HBM)

Wenn die GPU Daten von der CPU braucht, müssen sie:

Aus dem RAM gelesen werden
Über den PCIe-Bus übertragen werden
In den VRAM der GPU kopiert werden

Das kostet Zeit und Energie – besonders bei KI-Modellen, die hunderte Megabyte groß sind.

Apples Lösung

    ┌─────────────────────────────────┐
    │        Unified Memory           │
    │    (gemeinsam für alle)         │
    └─────────────────────────────────┘
           ↑      ↑      ↑
         CPU    GPU    Neural Engine

CPU, GPU und Neural Engine greifen auf denselben physischen Speicher zu. Kein Kopieren, keine Latenz, keine verschwendete Energie.

Bandbreite

Die Speicherbandbreite der M-Serie:

Chip	Bandbreite	Speicher
M1	68 GB/s	8-16 GB
M2	100 GB/s	8-24 GB
M3	100 GB/s	8-24 GB
M3 Pro	150 GB/s	18-36 GB
M3 Max	400 GB/s	36-128 GB
M2 Ultra	800 GB/s	64-192 GB

Zum Vergleich: DDR5 erreicht etwa 50 GB/s, eine NVIDIA RTX 4090 etwa 1 TB/s – aber nur für ihren eigenen VRAM.

Konsequenz für KI

Ein 7B-Parameter-Modell (z.B. Llama 2 7B) braucht etwa 14 GB in FP16. Auf einem M3 Max mit 128 GB läuft es komplett im Unified Memory – ohne Auslagerung, ohne Kopieren.

Größere Modelle wie Llama 70B (140 GB in FP16) passen auf ein M2 Ultra mit 192 GB. Auf einem klassischen System bräuchte man mehrere High-End-GPUs.

Die Neural Engine

Die Neural Engine ist Apples dedizierter KI-Beschleuniger – eine Art Mini-TPU im Chip.

Architektur

Über die genaue Architektur schweigt Apple, aber bekannt ist:

16 Kerne (seit M1, M3 hat 16-38 je nach Variante)
Optimiert für INT8 und FP16 Operationen
Spezialisiert auf Matrix-Multiplikationen
Direkte Anbindung an Unified Memory

Leistung

Chip	TOPS (Billionen Operationen/Sekunde)
A11 (2017)	0,6
A14 (2020)	11
M1 (2020)	11
M2 (2022)	15,8
M3 (2023)	18
M3 Max	35+

Zum Vergleich: Eine NVIDIA H100 erreicht ~2.000 TOPS (INT8). Aber die Neural Engine braucht nur wenige Watt, die H100 mehrere hundert.

Wofür wird sie genutzt?

Apple nutzt die Neural Engine für:

Siri: Spracherkennung und Natural Language Processing
Fotos: Gesichtserkennung, Objekterkennung, Bildverbesserung
Live Text: Texterkennung in Bildern
Kamera: Computational Photography, Portrait-Modus
Diktat: On-Device Transkription
Übersetzung: Offline-Übersetzung

Fast alle KI-Features in iOS und macOS laufen lokal auf der Neural Engine – ohne Cloud.

Core ML: Das Software-Ökosystem

Hardware allein reicht nicht. Apple stellt mit Core ML ein komplettes Framework bereit.

Modell-Konvertierung

Core ML Tools konvertieren Modelle aus verschiedenen Frameworks:

PyTorch
TensorFlow
ONNX
JAX

Das konvertierte .mlpackage ist für Apple Hardware optimiert.

Automatische Beschleunigung

Entwickler müssen nicht entscheiden, welche Hardware genutzt wird:

let model = try MLModel(contentsOf: modelURL)
let prediction = try model.prediction(from: input)

Core ML entscheidet automatisch:

Kleine Operationen → CPU
Parallele Operationen → GPU
Matrix-Operationen → Neural Engine

Quantisierung

Core ML unterstützt verschiedene Präzisionsstufen:

Float32: Höchste Präzision, meister Speicher
Float16: Halber Speicher, minimaler Qualitätsverlust
Int8: Viertel Speicher, meist akzeptabler Verlust
Palettization: Extreme Kompression für kleine Modelle

Ein 7B-Modell kann so von 28 GB (FP32) auf 3,5 GB (4-Bit) schrumpfen.

Vergleich mit Cloud-KI

Vorteile von On-Device KI

Privatsphäre: Daten verlassen das Gerät nie Latenz: Keine Netzwerk-Roundtrips Verfügbarkeit: Funktioniert offline Kosten: Keine API-Gebühren

Nachteile

Modellgröße: Begrenzt durch Gerätespeicher Rechenleistung: Deutlich unter Cloud-Hardware Training: Auf dem Gerät kaum praktikabel Updates: Modell-Updates brauchen App-Updates

Der Sweet Spot

On-Device KI eignet sich für:

Inferenz mit kleinen bis mittleren Modellen
Latenz-kritische Anwendungen
Privatsphäre-sensitive Daten
Offline-Szenarien

Cloud-KI bleibt besser für:

Große Sprachmodelle (70B+)
Training
Komplexe Multi-Modal-Aufgaben
Gelegentliche, komplexe Anfragen

Apple Intelligence: Die nächste Stufe

Mit iOS 18 und macOS Sequoia führt Apple Apple Intelligence ein – KI-Features, die lokal und in der Cloud arbeiten.

Lokale Modelle

Für einfache Aufgaben laufen kleine, optimierte Modelle auf dem Gerät:

Textvorschläge
Zusammenfassungen
Bildgenerierung (einfach)

Private Cloud Compute

Für komplexere Aufgaben nutzt Apple eigene Server:

Auf Apple Silicon basierend (M2 Ultra)
Keine persistente Datenspeicherung
Verifizierbare Sicherheit durch Secure Enclave

Der hybride Ansatz

Anfrage
   ↓
[Lokal ausführbar?]
   ├─ Ja → Neural Engine
   └─ Nein → Private Cloud Compute
                 ↓
            [Ergebnis]
                 ↓
            Lokales Gerät

Das kombiniert die Vorteile beider Welten: Privatsphäre wo möglich, Leistung wo nötig.

Apple Silicon vs. andere Lösungen

vs. NVIDIA GPU

Aspekt	Apple M3 Max	NVIDIA RTX 4090
KI-Leistung (TOPS)	~35	~1.300
Speicher	128 GB unified	24 GB VRAM
Bandbreite	400 GB/s	1 TB/s
TDP	~30-60W	450W
Preis	Im MacBook inkl.	~1.600€ separat

Die 4090 ist 40× schneller bei KI, braucht aber 10× mehr Strom und hat nur 1/5 des Speichers.

vs. TPU

TPUs sind für Cloud-Scale Training gedacht – ein völlig anderer Anwendungsfall. Vergleichbar wäre nur die Energieeffizienz: Beide optimieren für Ops/Watt statt für rohe Leistung.

vs. Qualcomm/Intel NPUs

Windows-Laptops mit NPUs (Neural Processing Units) erreichen ähnliche TOPS-Werte wie die Neural Engine. Aber:

Kein Unified Memory
Weniger ausgereiftes Software-Ökosystem
Geringere Integration ins Betriebssystem

Für Entwickler

Wann Apple Silicon nutzen?

Ideal für:

Inferenz mit Modellen bis ~30B Parameter
Bildverarbeitung und Computer Vision
NLP-Aufgaben (Sentiment, Named Entity Recognition)
Echtzeit-Anwendungen

Weniger geeignet für:

Training großer Modelle
Batch-Inferenz mit hohem Durchsatz
Modelle >70B Parameter

Performance-Tipps

Core ML nutzen: Nicht PyTorch direkt auf der GPU
Quantisieren: INT8 oder 4-Bit wo möglich
Batching vermeiden: Neural Engine ist für Einzelinferenz optimiert
Unified Memory ausnutzen: Große Modelle profitieren besonders

Ausblick

Apple investiert massiv in KI-Hardware. Die M4-Serie wird vermutlich:

Mehr Neural Engine Kerne
Höhere TOPS-Werte
Bessere Unterstützung für große Sprachmodelle

Mit Apple Intelligence als Software-Plattform wird die Hardware-Optimierung noch wichtiger. Der integrierte Ansatz – Hardware, Software, Services – bleibt Apples Differenzierung.

Im nächsten Teil schauen wir uns NVIDIA-GPUs an: die dominierende Kraft im KI-Training und der flexibelste Ansatz für Entwickler und Forscher.