PonyExl3: EXL3-Quantisierung jetzt nativ auf Apple Silicon via Metal

Warum es zählt

Mac-Nutzer können damit EXL3-quantisierte Modelle lokal ausführen, die bisher CUDA erforderten. Die Decode-Geschwindigkeit übertrifft laut Post sogar die RTX 4090, was EXL3 auf Apple Silicon für ernsthafte lokale Inferenz relevant macht.

— Lumeric Redaktion

Quelle lesenreddit.com

68,5 tok/s

Decode-Speed M5 Max, Qwen3.6-35B-A3B

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

PonyExl3: EXL3-Quantisierung jetzt nativ auf Apple Silicon via Metal

ToolsQwen

Warum es zählt

— Lumeric Redaktion

68,5 tok/s

Decode-Speed M5 Max, Qwen3.6-35B-A3B

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

PonyExl3: EXL3-Quantisierung jetzt nativ auf Apple Silicon via Metal

Frag die KI zum Artikel

Verwandte Beiträge

PonyExl3: EXL3-Quantisierung jetzt nativ auf Apple Silicon via Metal

Frag die KI zum Artikel

Verwandte Beiträge