Native Multi-Token-Prediction für Qwen3-MLX-Modelle in exo integriert
Der Reddit-Nutzer /u/meaningego hat mit Pull Request #2110 natives Multi-Token Prediction (MTP) in das Open-Source-Framework exo eingebracht, das Apple-Silicon-Geräte als verteilten Inferenz-Cluster zusammenschaltet. Die Implementierung zielt auf Qwen3-kompatible MLX-Checkpoints und ist auf macOS standardmäßig aktiv; per Umgebungsvariable EXO_NATIVE_MTP_ENABLED=0 lässt sie sich deaktivieren. Beim 27B-Modell liefert K=2 den besten Kompromiss: 34,06 tok/s gegenüber 17,27 tok/s ohne MTP (1,97×), bei einer Draft-Akzeptanzrate von 75,4 %. Das MoE-Modell 35B-A3B profitiert dagegen deutlich weniger — K=1 ist hier mit 98,59 tok/s (1,16×) optimal, da höhere K-Werte durch Verifier- und Cache-Kosten auf dem MoE/GDN-Pfad aufgezehrt werden. Exactness-Proben bestätigten token-genaue Übereinstimmung mit dem reinen Target-Pfad für greedy Dekodierung über 64-Token-Läufe. Aktuelle Einschränkungen: MTP läuft nur auf Single-Node-Setups; Multi-Node-Verteilung fällt auf den normalen Pfad zurück. Stateful Logits-Prozessoren (Repetition-Penalty etc.) sowie K≥4 sind noch nicht unterstützt. Der Autor plant den Einsatz auf mehreren Mac Studios als verteiltem Cluster.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Native Multi-Token-Prediction für Qwen3-MLX-Modelle in exo integriert
Der Reddit-Nutzer /u/meaningego hat mit Pull Request #2110 natives Multi-Token Prediction (MTP) in das Open-Source-Framework exo eingebracht, das Apple-Silicon-Geräte als verteilten Inferenz-Cluster zusammenschaltet. Die Implementierung zielt auf Qwen3-kompatible MLX-Checkpoints und ist auf macOS standardmäßig aktiv; per Umgebungsvariable EXO_NATIVE_MTP_ENABLED=0 lässt sie sich deaktivieren. Beim 27B-Modell liefert K=2 den besten Kompromiss: 34,06 tok/s gegenüber 17,27 tok/s ohne MTP (1,97×), bei einer Draft-Akzeptanzrate von 75,4 %. Das MoE-Modell 35B-A3B profitiert dagegen deutlich weniger — K=1 ist hier mit 98,59 tok/s (1,16×) optimal, da höhere K-Werte durch Verifier- und Cache-Kosten auf dem MoE/GDN-Pfad aufgezehrt werden. Exactness-Proben bestätigten token-genaue Übereinstimmung mit dem reinen Target-Pfad für greedy Dekodierung über 64-Token-Läufe. Aktuelle Einschränkungen: MTP läuft nur auf Single-Node-Setups; Multi-Node-Verteilung fällt auf den normalen Pfad zurück. Stateful Logits-Prozessoren (Repetition-Penalty etc.) sowie K≥4 sind noch nicht unterstützt. Der Autor plant den Einsatz auf mehreren Mac Studios als verteiltem Cluster.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.