Qwen3.6-27B mit MTP-Grafting erreicht 2,5x Token-Durchsatz in llama.cpp

Warum es zählt

MTP war bislang hauptsächlich in SGLang und vLLM verfügbar; diese Implementierung macht es lokal über llama.cpp und GGUF nutzbar. Das öffnet signifikante Effizienzgewinne bei Speculative Decoding für dezentrale Nutzer.

— Lumeric Redaktion

Ein Nutzer der lokalen LLaMA-Community hat Multi-Token Prediction (MTP) für Qwen3.6-27B umgesetzt, indem er MTP-Köpfe als Q8_0-Schicht auf Unsloth UD XL aufpfropfte und diese mit einer PR für llama.cpp (#22673) zum Laufen brachte. Die graftierten GGUF-Dateien, die Quellschichten und ein Konvertierungsskript wurden auf HuggingFace veröffentlicht. Qwen3 wurde mit 3 MTP-Schritten trainiert, weshalb jeder Forward Pass 4 Token gleichzeitig vorhersagt. Der praktische Benchmark zeigt eine 2,5x höhere Token-Durchsatzrate mit hoher Akzeptanzquote der Draft-Token, was demonstriert, dass die MTP-Köpfe genuinen Nutzen bringen. Die Q8-Layer verursachen minimal zusätzlichen VRAM-Overhead. Der Implementierer stellt Schritt-für-Schritt-Anleitung, Build-Instruktionen und Befehle für llama-server zur Verfügung und erwartet, dass PR #22673 bald in den Master-Branch mergt.

Was wir noch wissen

MTP-Köpfe in Q8_0 graftet auf Basismodell mit niedriger Bittiefe, um Speculative-Decoding-Genauigkeit zu bewahren
Basiertauf llama.cpp PR #22673 für Speculative-Decoding-Support, manuell mit master gemergtt
Qwen3 trainiert mit 3 MTP-Schritte = 4 Token pro Forward Pass vorhersagbar
Setup via 3 Git-Commands und --spec-type mtp --spec-draft-n-max 3 Flags realisierbar

Quelle lesenreddit.com

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6-27B mit MTP-Grafting erreicht 2,5x Token-Durchsatz in llama.cpp

ToolsQwen Llama Hugging Face

CompaniesHugging Face

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

MTP-Köpfe in Q8_0 graftet auf Basismodell mit niedriger Bittiefe, um Speculative-Decoding-Genauigkeit zu bewahren
Basiertauf llama.cpp PR #22673 für Speculative-Decoding-Support, manuell mit master gemergtt
Qwen3 trainiert mit 3 MTP-Schritte = 4 Token pro Forward Pass vorhersagbar
Setup via 3 Git-Commands und --spec-type mtp --spec-draft-n-max 3 Flags realisierbar

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6-27B mit MTP-Grafting erreicht 2,5x Token-Durchsatz in llama.cpp

Frag die KI zum Artikel

Verwandte Beiträge

Qwen3.6-27B mit MTP-Grafting erreicht 2,5x Token-Durchsatz in llama.cpp

Frag die KI zum Artikel

Verwandte Beiträge