Qwen3.6-27B mit MTP-Grafting erreicht 2,5x Token-Durchsatz in llama.cpp
Ein Nutzer der lokalen LLaMA-Community hat Multi-Token Prediction (MTP) für Qwen3.6-27B umgesetzt, indem er MTP-Köpfe als Q8_0-Schicht auf Unsloth UD XL aufpfropfte und diese mit einer PR für llama.cpp (#22673) zum Laufen brachte. Die graftierten GGUF-Dateien, die Quellschichten und ein Konvertierungsskript wurden auf HuggingFace veröffentlicht. Qwen3 wurde mit 3 MTP-Schritten trainiert, weshalb jeder Forward Pass 4 Token gleichzeitig vorhersagt. Der praktische Benchmark zeigt eine 2,5x höhere Token-Durchsatzrate mit hoher Akzeptanzquote der Draft-Token, was demonstriert, dass die MTP-Köpfe genuinen Nutzen bringen. Die Q8-Layer verursachen minimal zusätzlichen VRAM-Overhead. Der Implementierer stellt Schritt-für-Schritt-Anleitung, Build-Instruktionen und Befehle für llama-server zur Verfügung und erwartet, dass PR #22673 bald in den Master-Branch mergt.
- MTP-Köpfe in Q8_0 graftet auf Basismodell mit niedriger Bittiefe, um Speculative-Decoding-Genauigkeit zu bewahren
- Basiertauf llama.cpp PR #22673 für Speculative-Decoding-Support, manuell mit master gemergtt
- Qwen3 trainiert mit 3 MTP-Schritte = 4 Token pro Forward Pass vorhersagbar
- Setup via 3 Git-Commands und --spec-type mtp --spec-draft-n-max 3 Flags realisierbar
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Qwen3.6-27B mit MTP-Grafting erreicht 2,5x Token-Durchsatz in llama.cpp
Ein Nutzer der lokalen LLaMA-Community hat Multi-Token Prediction (MTP) für Qwen3.6-27B umgesetzt, indem er MTP-Köpfe als Q8_0-Schicht auf Unsloth UD XL aufpfropfte und diese mit einer PR für llama.cpp (#22673) zum Laufen brachte. Die graftierten GGUF-Dateien, die Quellschichten und ein Konvertierungsskript wurden auf HuggingFace veröffentlicht. Qwen3 wurde mit 3 MTP-Schritten trainiert, weshalb jeder Forward Pass 4 Token gleichzeitig vorhersagt. Der praktische Benchmark zeigt eine 2,5x höhere Token-Durchsatzrate mit hoher Akzeptanzquote der Draft-Token, was demonstriert, dass die MTP-Köpfe genuinen Nutzen bringen. Die Q8-Layer verursachen minimal zusätzlichen VRAM-Overhead. Der Implementierer stellt Schritt-für-Schritt-Anleitung, Build-Instruktionen und Befehle für llama-server zur Verfügung und erwartet, dass PR #22673 bald in den Master-Branch mergt.
- MTP-Köpfe in Q8_0 graftet auf Basismodell mit niedriger Bittiefe, um Speculative-Decoding-Genauigkeit zu bewahren
- Basiertauf llama.cpp PR #22673 für Speculative-Decoding-Support, manuell mit master gemergtt
- Qwen3 trainiert mit 3 MTP-Schritte = 4 Token pro Forward Pass vorhersagbar
- Setup via 3 Git-Commands und --spec-type mtp --spec-draft-n-max 3 Flags realisierbar
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.