MTPLX: Neuer MTP-Inference-Engine für Apple Silicon mit 2.24× höherem Durchsatz
MTPLX ist ein nativer Inference-Engine für Apple Silicon, der die in modernen LLMs wie Qwen 3.6 27B eingebauten MTP-Köpfe (Multi-Token Prediction) als interne Drafter für Speculative Decoding nutzt. Das System unterscheidet sich grundlegend von DFlash und DDTree: Während diese nur Greedy-Sampling (Temperatur 0) unterstützen und externe Drafter-Modelle benötigen, arbeitet MTPLX mit exakter Rejection-Sampling-Mathematik und beliebigen Temperaturen. Auf einem MacBook Pro M5 Max erreicht MTPLX mit Qwen 3.6 27B eine Steigerung von 28 auf 63 Token pro Sekunde bei Temperatur 0.6 und den von Qwen empfohlenen Sampling-Parametern (top_p 0.95, top_k 20). Die Implementierung basiert auf einem gepatchten MLX-Fork mit eigenen Metal-Kernels und unterstützt Tiefen von 2 bis 7+ MTP-Ebenen, wobei Tiefe 3 für dieses Setup optimal ausfällt. Das Projekt bietet eine vollständige CLI mit Modell-Download, Kompatibilitätserkennung, OpenAI/Anthropic-API-Server und Browser-Chat.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
MTPLX: Neuer MTP-Inference-Engine für Apple Silicon mit 2.24× höherem Durchsatz
MTPLX ist ein nativer Inference-Engine für Apple Silicon, der die in modernen LLMs wie Qwen 3.6 27B eingebauten MTP-Köpfe (Multi-Token Prediction) als interne Drafter für Speculative Decoding nutzt. Das System unterscheidet sich grundlegend von DFlash und DDTree: Während diese nur Greedy-Sampling (Temperatur 0) unterstützen und externe Drafter-Modelle benötigen, arbeitet MTPLX mit exakter Rejection-Sampling-Mathematik und beliebigen Temperaturen. Auf einem MacBook Pro M5 Max erreicht MTPLX mit Qwen 3.6 27B eine Steigerung von 28 auf 63 Token pro Sekunde bei Temperatur 0.6 und den von Qwen empfohlenen Sampling-Parametern (top_p 0.95, top_k 20). Die Implementierung basiert auf einem gepatchten MLX-Fork mit eigenen Metal-Kernels und unterstützt Tiefen von 2 bis 7+ MTP-Ebenen, wobei Tiefe 3 für dieses Setup optimal ausfällt. Das Projekt bietet eine vollständige CLI mit Modell-Download, Kompatibilitätserkennung, OpenAI/Anthropic-API-Server und Browser-Chat.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.