Multi-Token Prediction für Qwen auf LLaMA.cpp: +40 % Durchsatz mit MTP und TurboQuant

Warum es zählt

Wer Qwen-Modelle lokal betreibt, kann mit dem gepatchten atomic-llama-cpp-turboquant und den vorgefertigten GGUF-Weights sofort ~40 % mehr Inferenzgeschwindigkeit auf Apple-Silicon-Hardware erzielen, ohne Cloud-Infrastruktur.

— Lumeric Redaktion

Reddit-Nutzer /u/gladkos hat einen gepatchten Fork von LLaMA.cpp veröffentlicht, der Multi-Token Prediction (MTP) gemeinsam mit der TurboQuant-Quantisierung für Qwen-Modelle kombiniert. Im Vergleich zur Baseline (LLaMA.cpp + TurboQuant ohne MTP) steigt der Durchsatz von 21 auf 34 Tokens/s – ein Zuwachs von rund 40 % bei einer MTP-Akzeptanzrate von 90 %. Getestet wurde das Setup lokal auf einem MacBook Pro M5 Max mit 64 GB RAM. Der Patch ist als AtomicBot-ai/atomic-llama-cpp-turboquant auf GitHub verfügbar; vorkompilierte, quantisierte GGUF-Gewichte für Qwen 3.6 27B und 35B mit MTP-Unterstützung wurden auf Hugging Face unter der AtomicChat-Collection bereitgestellt. Das Projekt ist an die lokale KI-App Atomic.Chat angebunden, die als Frontend für die beschleunigten Modelle dient. MTP ist ein Spektulatives-Decoding-verwandtes Verfahren, bei dem das Modell pro Schritt mehrere Token vorschlägt und das Hauptmodell nur die akzeptierten Tokens übernimmt – dadurch sinkt die effektive Latenz pro generiertem Token deutlich.

Was wir noch wissen

Baseline: LLaMA.cpp + TurboQuant ohne MTP erzielt 21 Tokens/s auf M5 Max 64 GB
Mit MTP steigt der Durchsatz auf 34 Tokens/s bei 90 % Akzeptanzrate
Gepatchter Fork: github.com/AtomicBot-ai/atomic-llama-cpp-turboquant
GGUF-Gewichte für Qwen 3.6 27B und 35B mit MTP auf Hugging Face (AtomicChat-Collection)
Integration in die lokale App Atomic.Chat als Frontend

Quelle lesenreddit.com

34 tokens/s

Durchsatz mit MTP + TurboQuant auf M5 Max

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Multi-Token Prediction für Qwen auf LLaMA.cpp: +40 % Durchsatz mit MTP und TurboQuant

ToolsQwen Llama Hugging Face

CompaniesHugging Face

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Baseline: LLaMA.cpp + TurboQuant ohne MTP erzielt 21 Tokens/s auf M5 Max 64 GB
Mit MTP steigt der Durchsatz auf 34 Tokens/s bei 90 % Akzeptanzrate
Gepatchter Fork: github.com/AtomicBot-ai/atomic-llama-cpp-turboquant
GGUF-Gewichte für Qwen 3.6 27B und 35B mit MTP auf Hugging Face (AtomicChat-Collection)
Integration in die lokale App Atomic.Chat als Frontend

34 tokens/s

Durchsatz mit MTP + TurboQuant auf M5 Max

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Multi-Token Prediction für Qwen auf LLaMA.cpp: +40 % Durchsatz mit MTP und TurboQuant

Frag die KI zum Artikel

Verwandte Beiträge

Multi-Token Prediction für Qwen auf LLaMA.cpp: +40 % Durchsatz mit MTP und TurboQuant

Frag die KI zum Artikel

Verwandte Beiträge