Cohere Command A+ (218B MoE) läuft via MLX auf Apple Silicon

CompaniesCohere

Warum es zählt

Das MLX-Port macht ein Apache-2.0-lizenziertes 218B-MoE-Modell lokal auf Apple-Silicon-Maschinen nutzbar — Tool-Calling und Multi-Turn mit KV-Cache-Fortsetzung funktionieren bereits. Für den W4A4-Pfad werden 192 GB RAM benötigt; das BF16→Q8-Format läuft ab ca. 241 GB.

— Lumeric Redaktion

Cohere hat Command A+ am 20. Mai 2026 veröffentlicht – ein Mixture-of-Experts-Modell mit 218 Milliarden Gesamtparametern, 25 Milliarden aktiven Parametern, 128 Experten und Top-8-Routing unter Apache-2.0-Lizenz. Reddit-Nutzer /u/Remarkable_Jicama775 hat dafür eine cohere2_moe-Implementierung für das mlx-lm-Framework geschrieben, um das Modell auf Apple Silicon lauffähig zu machen. Die Architektur verwendet Sigmoid-Routing (statt Softmax) mit normalisiertem Top-8, einen einzelnen Shared Expert mit größerem Intermediate (16 384 = 4 096 × 4), ein Sliding-Window-Muster im Verhältnis 3:1 sowie parallele Attention+MLP-Blöcke auf derselben LayerNorm. Ein kritischer Fund: Die Biases im W4A4-Checkpoint sind NVFP4-Quantisierungsartefakte – das BF16-Modell ist vollständig bias-frei; sanitize() behandelt beide Formate. GitHub-Nutzer vlbosch testete das Modell auf einer größeren Maschine mit BF16→Q8-Konvertierung und erreichte 22,9 tok/s Generierung, 57,6 tok/s Prompt-Verarbeitung bei 241 GB Speicher-Peak. Tool-Calling und Multi-Turn mit KV-Cache-Fortsetzung funktionieren. Der Pull Request #1294 auf ml-explore/mlx-lm ist offen und wird geprüft.

Quelle lesenreddit.com

22,9 tok/s

Generierungsgeschwindigkeit auf BF16→Q8

Foundation Modelle Open Source Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Cohere Command A+ (218B MoE) läuft via MLX auf Apple Silicon

CompaniesCohere

Warum es zählt

— Lumeric Redaktion

22,9 tok/s

Generierungsgeschwindigkeit auf BF16→Q8

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Cohere Command A+ (218B MoE) läuft via MLX auf Apple Silicon

Frag die KI zum Artikel

Verwandte Beiträge

Cohere Command A+ (218B MoE) läuft via MLX auf Apple Silicon

Frag die KI zum Artikel

Verwandte Beiträge