Cohere Command A+ (218B MoE) läuft via MLX auf Apple Silicon
Cohere hat Command A+ am 20. Mai 2026 veröffentlicht – ein Mixture-of-Experts-Modell mit 218 Milliarden Gesamtparametern, 25 Milliarden aktiven Parametern, 128 Experten und Top-8-Routing unter Apache-2.0-Lizenz. Reddit-Nutzer /u/Remarkable_Jicama775 hat dafür eine cohere2_moe-Implementierung für das mlx-lm-Framework geschrieben, um das Modell auf Apple Silicon lauffähig zu machen. Die Architektur verwendet Sigmoid-Routing (statt Softmax) mit normalisiertem Top-8, einen einzelnen Shared Expert mit größerem Intermediate (16 384 = 4 096 × 4), ein Sliding-Window-Muster im Verhältnis 3:1 sowie parallele Attention+MLP-Blöcke auf derselben LayerNorm. Ein kritischer Fund: Die Biases im W4A4-Checkpoint sind NVFP4-Quantisierungsartefakte – das BF16-Modell ist vollständig bias-frei; sanitize() behandelt beide Formate. GitHub-Nutzer vlbosch testete das Modell auf einer größeren Maschine mit BF16→Q8-Konvertierung und erreichte 22,9 tok/s Generierung, 57,6 tok/s Prompt-Verarbeitung bei 241 GB Speicher-Peak. Tool-Calling und Multi-Turn mit KV-Cache-Fortsetzung funktionieren. Der Pull Request #1294 auf ml-explore/mlx-lm ist offen und wird geprüft.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Cohere Command A+ (218B MoE) läuft via MLX auf Apple Silicon
Cohere hat Command A+ am 20. Mai 2026 veröffentlicht – ein Mixture-of-Experts-Modell mit 218 Milliarden Gesamtparametern, 25 Milliarden aktiven Parametern, 128 Experten und Top-8-Routing unter Apache-2.0-Lizenz. Reddit-Nutzer /u/Remarkable_Jicama775 hat dafür eine cohere2_moe-Implementierung für das mlx-lm-Framework geschrieben, um das Modell auf Apple Silicon lauffähig zu machen. Die Architektur verwendet Sigmoid-Routing (statt Softmax) mit normalisiertem Top-8, einen einzelnen Shared Expert mit größerem Intermediate (16 384 = 4 096 × 4), ein Sliding-Window-Muster im Verhältnis 3:1 sowie parallele Attention+MLP-Blöcke auf derselben LayerNorm. Ein kritischer Fund: Die Biases im W4A4-Checkpoint sind NVFP4-Quantisierungsartefakte – das BF16-Modell ist vollständig bias-frei; sanitize() behandelt beide Formate. GitHub-Nutzer vlbosch testete das Modell auf einer größeren Maschine mit BF16→Q8-Konvertierung und erreichte 22,9 tok/s Generierung, 57,6 tok/s Prompt-Verarbeitung bei 241 GB Speicher-Peak. Tool-Calling und Multi-Turn mit KV-Cache-Fortsetzung funktionieren. Der Pull Request #1294 auf ml-explore/mlx-lm ist offen und wird geprüft.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.