Cider SDK bringt W8A8-Aktivierungsquantisierung für MLX auf Apple Silicon
Das Team von Mininglamp AI entwickelte Cider, weil MLX standardmäßig nur gewichtsbasierte Quantisierung unterstützt und Aktivierungen durchgehend in FP16 verbleiben. Für ein internes 4B-VLM-Modell auf Apple Silicon war das ein Performance-Engpass. Cider ergänzt MLX um W8A8-Aktivierungsquantisierung über eigene Metal-Kernel, die als MLX-Primitive registriert werden. Gemessen auf einem M5 Pro (64 GB RAM, 307 GB/s Speicherbandbreite) mit einem 4516-Token-Kontext reduziert sich die Prefill-Zeit von 2,839 s (W8A16, MLX) auf 2,519 s (W8A8, Cider), während der Decode-Durchsatz mit 79,5 tok/s gegenüber 80,1 tok/s nahezu identisch bleibt. Der per-channel-Pfad bei M=4096 läuft laut den Entwicklern 1,84× schneller als W8A16 auf gleicher Tensor-Form. INT8 TensorOps kompilieren allerdings nur auf M5 und neueren Chips; auf M4 fällt Cider auf den regulären MLX-Pfad zurück. Das SDK ist als Open-Source-Projekt auf GitHub unter github.com/Mininglamp-AI/cider verfügbar und per pip installierbar.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Cider SDK bringt W8A8-Aktivierungsquantisierung für MLX auf Apple Silicon
Das Team von Mininglamp AI entwickelte Cider, weil MLX standardmäßig nur gewichtsbasierte Quantisierung unterstützt und Aktivierungen durchgehend in FP16 verbleiben. Für ein internes 4B-VLM-Modell auf Apple Silicon war das ein Performance-Engpass. Cider ergänzt MLX um W8A8-Aktivierungsquantisierung über eigene Metal-Kernel, die als MLX-Primitive registriert werden. Gemessen auf einem M5 Pro (64 GB RAM, 307 GB/s Speicherbandbreite) mit einem 4516-Token-Kontext reduziert sich die Prefill-Zeit von 2,839 s (W8A16, MLX) auf 2,519 s (W8A8, Cider), während der Decode-Durchsatz mit 79,5 tok/s gegenüber 80,1 tok/s nahezu identisch bleibt. Der per-channel-Pfad bei M=4096 läuft laut den Entwicklern 1,84× schneller als W8A16 auf gleicher Tensor-Form. INT8 TensorOps kompilieren allerdings nur auf M5 und neueren Chips; auf M4 fällt Cider auf den regulären MLX-Pfad zurück. Das SDK ist als Open-Source-Projekt auf GitHub unter github.com/Mininglamp-AI/cider verfügbar und per pip installierbar.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.