Gemma4 26B MoE läuft mit TurboQuant in MLX auf MacBook Air M5

Warum es zählt

Wer lokale Inferenz auf Apple-Silicon betreibt, kann Gemma4 26B jetzt mit 128k Kontext und 4 parallelen Batches auf einem M5 MacBook Air ausführen – bei geringerem RAM-Verbrauch (15,22 GB) und höherem Durchsatz als llama.cpp.

— Lumeric Redaktion

Die Entwicklerin /u/maddie-lovelace hat innerhalb weniger Abende eine vollständige MLX-Integration für Gemma4 26B MoE mit TurboQuant-Quantisierung (nvfp4 + polar2, 4,5 bpw) und rotierendem KV-Cache realisiert. Das Setup läuft auf einem MacBook Air M5 mit 32 GB RAM bei bis zu 128k Kontext und unterstützt 4 gleichzeitige Batches. Bei 8k Kontext ohne mmap übertrifft die Lösung llama.cpp (IQ4_XS + q4_0 KV + Flash-Attention) in allen drei Metriken: 348,4 vs. 260,6 pp tok/s beim Prompt-Processing, 17,15 vs. 14,66 gen tok/s bei der Generierung sowie 15,22 GB vs. 16,0 GB Laufzeitspeicher. Ein eigener Kernel für die SWA-Layer (Sliding-Window-Attention) war nötig, um die 2-Bit-Speichereinsparungen im laufenden Betrieb zu realisieren und gleichzeitig die Prompt-Verarbeitungsgeschwindigkeit nahe fp16-Niveau zu halten. Bei Batch-Betrieb steigt die Generierungsrate auf einem 32-GB-M5 von 16,0 gen tok/s (B=1) auf bis zu 54,6 gen tok/s (B=64). Das Projekt ist als Open-Source-Repo auf GitHub verfügbar und via uv oder pip3 installierbar; für Macs mit nur 16 GB RAM ist ein dokumentierter Wired-Memory-Hack erforderlich.

Quelle lesenreddit.com

Prompt Processing Speed (pp tok/s) @ 8k Kontext · Spitzenwert

260.6%

llama.cpp (IQ4_XS + q4_0 KV)

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Gemma4 26B MoE läuft mit TurboQuant in MLX auf MacBook Air M5

ToolsLlama

Warum es zählt

— Lumeric Redaktion

Prompt Processing Speed (pp tok/s) @ 8k Kontext · Spitzenwert

260.6%

llama.cpp (IQ4_XS + q4_0 KV)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Gemma4 26B MoE läuft mit TurboQuant in MLX auf MacBook Air M5

Frag die KI zum Artikel

Verwandte Beiträge

Gemma4 26B MoE läuft mit TurboQuant in MLX auf MacBook Air M5

Frag die KI zum Artikel

Verwandte Beiträge