PonyExl3: EXL3-Quantisierung jetzt nativ auf Apple Silicon via Metal
ToolsQwen
Warum es zählt
Mac-Nutzer können damit EXL3-quantisierte Modelle lokal ausführen, die bisher CUDA erforderten. Die Decode-Geschwindigkeit übertrifft laut Post sogar die RTX 4090, was EXL3 auf Apple Silicon für ernsthafte lokale Inferenz relevant macht.
— Lumeric Redaktion
68,5 tok/s
Decode-Speed M5 Max, Qwen3.6-35B-A3B
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com5d
MTPLX V1: Native Mac-App für MLX-Modelle mit 2× Speed via MTP
- LAUNCHpytorch.org0mo
ExecuTorch MLX Delegate bringt GPU-Inferenz für PyTorch auf Apple Silicon
- FORSCHUNGarxiv.org0mo
Echtzeit-Diffusion auf Apple M3 Ultra: 22,7 FPS durch systematische Optimierung
- GERÜCHTreddit.com3w
RunAnywhere.ai behauptet 3× Speed-Up gegenüber MLX
PonyExl3: EXL3-Quantisierung jetzt nativ auf Apple Silicon via Metal
ToolsQwen
Warum es zählt
Mac-Nutzer können damit EXL3-quantisierte Modelle lokal ausführen, die bisher CUDA erforderten. Die Decode-Geschwindigkeit übertrifft laut Post sogar die RTX 4090, was EXL3 auf Apple Silicon für ernsthafte lokale Inferenz relevant macht.
— Lumeric Redaktion
68,5 tok/s
Decode-Speed M5 Max, Qwen3.6-35B-A3B
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com5d
MTPLX V1: Native Mac-App für MLX-Modelle mit 2× Speed via MTP
- LAUNCHpytorch.org0mo
ExecuTorch MLX Delegate bringt GPU-Inferenz für PyTorch auf Apple Silicon
- FORSCHUNGarxiv.org0mo
Echtzeit-Diffusion auf Apple M3 Ultra: 22,7 FPS durch systematische Optimierung
- GERÜCHTreddit.com3w
RunAnywhere.ai behauptet 3× Speed-Up gegenüber MLX