Native Multi-Token-Prediction für Qwen3-MLX-Modelle in exo integriert

Warum es zählt

Für Apple-Silicon-Nutzer, die exo als lokalen Inferenz-Cluster betreiben, ermöglicht native MTP nahezu eine Verdopplung des Durchsatzes beim 27B-Modell ohne Genauigkeitsverlust — bei MoE-Modellen (35B-A3B) ist der Gewinn jedoch deutlich geringer und auf K=1 beschränkt.

— Lumeric Redaktion

Der Reddit-Nutzer /u/meaningego hat mit Pull Request #2110 natives Multi-Token Prediction (MTP) in das Open-Source-Framework exo eingebracht, das Apple-Silicon-Geräte als verteilten Inferenz-Cluster zusammenschaltet. Die Implementierung zielt auf Qwen3-kompatible MLX-Checkpoints und ist auf macOS standardmäßig aktiv; per Umgebungsvariable EXO_NATIVE_MTP_ENABLED=0 lässt sie sich deaktivieren. Beim 27B-Modell liefert K=2 den besten Kompromiss: 34,06 tok/s gegenüber 17,27 tok/s ohne MTP (1,97×), bei einer Draft-Akzeptanzrate von 75,4 %. Das MoE-Modell 35B-A3B profitiert dagegen deutlich weniger — K=1 ist hier mit 98,59 tok/s (1,16×) optimal, da höhere K-Werte durch Verifier- und Cache-Kosten auf dem MoE/GDN-Pfad aufgezehrt werden. Exactness-Proben bestätigten token-genaue Übereinstimmung mit dem reinen Target-Pfad für greedy Dekodierung über 64-Token-Läufe. Aktuelle Einschränkungen: MTP läuft nur auf Single-Node-Setups; Multi-Node-Verteilung fällt auf den normalen Pfad zurück. Stateful Logits-Prozessoren (Repetition-Penalty etc.) sowie K≥4 sind noch nicht unterstützt. Der Autor plant den Einsatz auf mehreren Mac Studios als verteiltem Cluster.

Quelle lesenreddit.com

MTP Throughput (tok/s) auf M5 Max 48 GB · Spitzenwert

17.27%

27B MTP off

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Native Multi-Token-Prediction für Qwen3-MLX-Modelle in exo integriert

ToolsQwen

Warum es zählt

— Lumeric Redaktion

MTP Throughput (tok/s) auf M5 Max 48 GB · Spitzenwert

17.27%

27B MTP off

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Native Multi-Token-Prediction für Qwen3-MLX-Modelle in exo integriert

Frag die KI zum Artikel

Verwandte Beiträge

Native Multi-Token-Prediction für Qwen3-MLX-Modelle in exo integriert

Frag die KI zum Artikel

Verwandte Beiträge