Gemma4 26B MoE läuft mit TurboQuant in MLX auf MacBook Air M5
Die Entwicklerin /u/maddie-lovelace hat innerhalb weniger Abende eine vollständige MLX-Integration für Gemma4 26B MoE mit TurboQuant-Quantisierung (nvfp4 + polar2, 4,5 bpw) und rotierendem KV-Cache realisiert. Das Setup läuft auf einem MacBook Air M5 mit 32 GB RAM bei bis zu 128k Kontext und unterstützt 4 gleichzeitige Batches. Bei 8k Kontext ohne mmap übertrifft die Lösung llama.cpp (IQ4_XS + q4_0 KV + Flash-Attention) in allen drei Metriken: 348,4 vs. 260,6 pp tok/s beim Prompt-Processing, 17,15 vs. 14,66 gen tok/s bei der Generierung sowie 15,22 GB vs. 16,0 GB Laufzeitspeicher. Ein eigener Kernel für die SWA-Layer (Sliding-Window-Attention) war nötig, um die 2-Bit-Speichereinsparungen im laufenden Betrieb zu realisieren und gleichzeitig die Prompt-Verarbeitungsgeschwindigkeit nahe fp16-Niveau zu halten. Bei Batch-Betrieb steigt die Generierungsrate auf einem 32-GB-M5 von 16,0 gen tok/s (B=1) auf bis zu 54,6 gen tok/s (B=64). Das Projekt ist als Open-Source-Repo auf GitHub verfügbar und via uv oder pip3 installierbar; für Macs mit nur 16 GB RAM ist ein dokumentierter Wired-Memory-Hack erforderlich.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Gemma4 26B MoE läuft mit TurboQuant in MLX auf MacBook Air M5
Die Entwicklerin /u/maddie-lovelace hat innerhalb weniger Abende eine vollständige MLX-Integration für Gemma4 26B MoE mit TurboQuant-Quantisierung (nvfp4 + polar2, 4,5 bpw) und rotierendem KV-Cache realisiert. Das Setup läuft auf einem MacBook Air M5 mit 32 GB RAM bei bis zu 128k Kontext und unterstützt 4 gleichzeitige Batches. Bei 8k Kontext ohne mmap übertrifft die Lösung llama.cpp (IQ4_XS + q4_0 KV + Flash-Attention) in allen drei Metriken: 348,4 vs. 260,6 pp tok/s beim Prompt-Processing, 17,15 vs. 14,66 gen tok/s bei der Generierung sowie 15,22 GB vs. 16,0 GB Laufzeitspeicher. Ein eigener Kernel für die SWA-Layer (Sliding-Window-Attention) war nötig, um die 2-Bit-Speichereinsparungen im laufenden Betrieb zu realisieren und gleichzeitig die Prompt-Verarbeitungsgeschwindigkeit nahe fp16-Niveau zu halten. Bei Batch-Betrieb steigt die Generierungsrate auf einem 32-GB-M5 von 16,0 gen tok/s (B=1) auf bis zu 54,6 gen tok/s (B=64). Das Projekt ist als Open-Source-Repo auf GitHub verfügbar und via uv oder pip3 installierbar; für Macs mit nur 16 GB RAM ist ein dokumentierter Wired-Memory-Hack erforderlich.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.