Cider SDK bringt W8A8-Aktivierungsquantisierung für MLX auf Apple Silicon

Warum es zählt

MLX unterstützt bisher nur Weight-Only-Quantisierung; Cider schließt diese Lücke mit custom Metal Kernels und ermöglicht schnellere Prefill-Phasen für beliebige MLX-Modelle – allerdings nur auf M5 und neuer mit INT8 TensorOps.

— Lumeric Redaktion

Das Team von Mininglamp AI entwickelte Cider, weil MLX standardmäßig nur gewichtsbasierte Quantisierung unterstützt und Aktivierungen durchgehend in FP16 verbleiben. Für ein internes 4B-VLM-Modell auf Apple Silicon war das ein Performance-Engpass. Cider ergänzt MLX um W8A8-Aktivierungsquantisierung über eigene Metal-Kernel, die als MLX-Primitive registriert werden. Gemessen auf einem M5 Pro (64 GB RAM, 307 GB/s Speicherbandbreite) mit einem 4516-Token-Kontext reduziert sich die Prefill-Zeit von 2,839 s (W8A16, MLX) auf 2,519 s (W8A8, Cider), während der Decode-Durchsatz mit 79,5 tok/s gegenüber 80,1 tok/s nahezu identisch bleibt. Der per-channel-Pfad bei M=4096 läuft laut den Entwicklern 1,84× schneller als W8A16 auf gleicher Tensor-Form. INT8 TensorOps kompilieren allerdings nur auf M5 und neueren Chips; auf M4 fällt Cider auf den regulären MLX-Pfad zurück. Das SDK ist als Open-Source-Projekt auf GitHub unter github.com/Mininglamp-AI/cider verfügbar und per pip installierbar.

Quelle lesenreddit.com

Prefill-Zeit (4516-Token-Kontext, M5 Pro 64 GB) · Spitzenwert

2.839%

W8A16 (MLX)

Inferenz Infra Open Source Multimodal

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Cider SDK bringt W8A8-Aktivierungsquantisierung für MLX auf Apple Silicon

Warum es zählt

— Lumeric Redaktion

Prefill-Zeit (4516-Token-Kontext, M5 Pro 64 GB) · Spitzenwert

2.839%

W8A16 (MLX)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Cider SDK bringt W8A8-Aktivierungsquantisierung für MLX auf Apple Silicon

Frag die KI zum Artikel

Verwandte Beiträge

Cider SDK bringt W8A8-Aktivierungsquantisierung für MLX auf Apple Silicon

Frag die KI zum Artikel

Verwandte Beiträge