Multi-Token Prediction für Qwen auf LLaMA.cpp: +40 % Durchsatz mit MTP und TurboQuant
Reddit-Nutzer /u/gladkos hat einen gepatchten Fork von LLaMA.cpp veröffentlicht, der Multi-Token Prediction (MTP) gemeinsam mit der TurboQuant-Quantisierung für Qwen-Modelle kombiniert. Im Vergleich zur Baseline (LLaMA.cpp + TurboQuant ohne MTP) steigt der Durchsatz von 21 auf 34 Tokens/s – ein Zuwachs von rund 40 % bei einer MTP-Akzeptanzrate von 90 %. Getestet wurde das Setup lokal auf einem MacBook Pro M5 Max mit 64 GB RAM. Der Patch ist als AtomicBot-ai/atomic-llama-cpp-turboquant auf GitHub verfügbar; vorkompilierte, quantisierte GGUF-Gewichte für Qwen 3.6 27B und 35B mit MTP-Unterstützung wurden auf Hugging Face unter der AtomicChat-Collection bereitgestellt. Das Projekt ist an die lokale KI-App Atomic.Chat angebunden, die als Frontend für die beschleunigten Modelle dient. MTP ist ein Spektulatives-Decoding-verwandtes Verfahren, bei dem das Modell pro Schritt mehrere Token vorschlägt und das Hauptmodell nur die akzeptierten Tokens übernimmt – dadurch sinkt die effektive Latenz pro generiertem Token deutlich.
- Baseline: LLaMA.cpp + TurboQuant ohne MTP erzielt 21 Tokens/s auf M5 Max 64 GB
- Mit MTP steigt der Durchsatz auf 34 Tokens/s bei 90 % Akzeptanzrate
- Gepatchter Fork: github.com/AtomicBot-ai/atomic-llama-cpp-turboquant
- GGUF-Gewichte für Qwen 3.6 27B und 35B mit MTP auf Hugging Face (AtomicChat-Collection)
- Integration in die lokale App Atomic.Chat als Frontend
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Multi-Token Prediction für Qwen auf LLaMA.cpp: +40 % Durchsatz mit MTP und TurboQuant
Reddit-Nutzer /u/gladkos hat einen gepatchten Fork von LLaMA.cpp veröffentlicht, der Multi-Token Prediction (MTP) gemeinsam mit der TurboQuant-Quantisierung für Qwen-Modelle kombiniert. Im Vergleich zur Baseline (LLaMA.cpp + TurboQuant ohne MTP) steigt der Durchsatz von 21 auf 34 Tokens/s – ein Zuwachs von rund 40 % bei einer MTP-Akzeptanzrate von 90 %. Getestet wurde das Setup lokal auf einem MacBook Pro M5 Max mit 64 GB RAM. Der Patch ist als AtomicBot-ai/atomic-llama-cpp-turboquant auf GitHub verfügbar; vorkompilierte, quantisierte GGUF-Gewichte für Qwen 3.6 27B und 35B mit MTP-Unterstützung wurden auf Hugging Face unter der AtomicChat-Collection bereitgestellt. Das Projekt ist an die lokale KI-App Atomic.Chat angebunden, die als Frontend für die beschleunigten Modelle dient. MTP ist ein Spektulatives-Decoding-verwandtes Verfahren, bei dem das Modell pro Schritt mehrere Token vorschlägt und das Hauptmodell nur die akzeptierten Tokens übernimmt – dadurch sinkt die effektive Latenz pro generiertem Token deutlich.
- Baseline: LLaMA.cpp + TurboQuant ohne MTP erzielt 21 Tokens/s auf M5 Max 64 GB
- Mit MTP steigt der Durchsatz auf 34 Tokens/s bei 90 % Akzeptanzrate
- Gepatchter Fork: github.com/AtomicBot-ai/atomic-llama-cpp-turboquant
- GGUF-Gewichte für Qwen 3.6 27B und 35B mit MTP auf Hugging Face (AtomicChat-Collection)
- Integration in die lokale App Atomic.Chat als Frontend
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.