wird geladen

MTPLX: Neuer MTP-Inference-Engine für Apple Silicon mit 2.24× höherem Durchsatz · Lumeric

Beitrag

LAUNCH

reddit.com· r/LocalLLaMA3w

MTPLX: Neuer MTP-Inference-Engine für Apple Silicon mit 2.24× höherem Durchsatz

ToolsClaude GPT Qwen Hugging Face

CompaniesOpenAI Anthropic Hugging Face

Warum es zählt

Im Gegensatz zu DFlash und DDTree erlaubt MTPLX variables Temperatur-Sampling mit mathematisch exakter Rejection Sampling, was Coding und Creative Writing bei voller Geschwindigkeit ermöglicht – nicht nur Greedy-Inferenz. Das adressiert eine echte Limitation bestehender Speculative-Decoding-Projekte auf Apple Silicon.

— Lumeric Redaktion

MTPLX ist ein nativer Inference-Engine für Apple Silicon, der die in modernen LLMs wie Qwen 3.6 27B eingebauten MTP-Köpfe (Multi-Token Prediction) als interne Drafter für Speculative Decoding nutzt. Das System unterscheidet sich grundlegend von DFlash und DDTree: Während diese nur Greedy-Sampling (Temperatur 0) unterstützen und externe Drafter-Modelle benötigen, arbeitet MTPLX mit exakter Rejection-Sampling-Mathematik und beliebigen Temperaturen. Auf einem MacBook Pro M5 Max erreicht MTPLX mit Qwen 3.6 27B eine Steigerung von 28 auf 63 Token pro Sekunde bei Temperatur 0.6 und den von Qwen empfohlenen Sampling-Parametern (top_p 0.95, top_k 20). Die Implementierung basiert auf einem gepatchten MLX-Fork mit eigenen Metal-Kernels und unterstützt Tiefen von 2 bis 7+ MTP-Ebenen, wobei Tiefe 3 für dieses Setup optimal ausfällt. Das Projekt bietet eine vollständige CLI mit Modell-Download, Kompatibilitätserkennung, OpenAI/Anthropic-API-Server und Browser-Chat.

Quelle lesenreddit.com

Qwen 3.6 27B Durchsatz (tok/s) auf M5 Max · Spitzenwert

28%

Standard MLX (Baseline)

Inferenz Infra Open Source Developer Tooling

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

BENCHMARKreddit.com5d
Native Multi-Token-Prediction für Qwen3-MLX-Modelle in exo integriert

LAUNCH

reddit.com· r/LocalLLaMA3w

MTPLX: Neuer MTP-Inference-Engine für Apple Silicon mit 2.24× höherem Durchsatz

ToolsClaude GPT Qwen Hugging Face

CompaniesOpenAI Anthropic Hugging Face

Warum es zählt

Im Gegensatz zu DFlash und DDTree erlaubt MTPLX variables Temperatur-Sampling mit mathematisch exakter Rejection Sampling, was Coding und Creative Writing bei voller Geschwindigkeit ermöglicht – nicht nur Greedy-Inferenz. Das adressiert eine echte Limitation bestehender Speculative-Decoding-Projekte auf Apple Silicon.

— Lumeric Redaktion

MTPLX ist ein nativer Inference-Engine für Apple Silicon, der die in modernen LLMs wie Qwen 3.6 27B eingebauten MTP-Köpfe (Multi-Token Prediction) als interne Drafter für Speculative Decoding nutzt. Das System unterscheidet sich grundlegend von DFlash und DDTree: Während diese nur Greedy-Sampling (Temperatur 0) unterstützen und externe Drafter-Modelle benötigen, arbeitet MTPLX mit exakter Rejection-Sampling-Mathematik und beliebigen Temperaturen. Auf einem MacBook Pro M5 Max erreicht MTPLX mit Qwen 3.6 27B eine Steigerung von 28 auf 63 Token pro Sekunde bei Temperatur 0.6 und den von Qwen empfohlenen Sampling-Parametern (top_p 0.95, top_k 20). Die Implementierung basiert auf einem gepatchten MLX-Fork mit eigenen Metal-Kernels und unterstützt Tiefen von 2 bis 7+ MTP-Ebenen, wobei Tiefe 3 für dieses Setup optimal ausfällt. Das Projekt bietet eine vollständige CLI mit Modell-Download, Kompatibilitätserkennung, OpenAI/Anthropic-API-Server und Browser-Chat.

Qwen 3.6 27B Durchsatz (tok/s) auf M5 Max · Spitzenwert

28%

Standard MLX (Baseline)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

BENCHMARKreddit.com5d
Native Multi-Token-Prediction für Qwen3-MLX-Modelle in exo integriert