Niedrige Draft-Akzeptanz bei Qwen3 MTP in llama.cpp: Ursachensuche

Warum es zählt

Die Konfiguration zeigt typische Stolperfallen bei MTP-Spekulativem Decoding: quantisierte Draft-KV-Caches (q4_0), hohe presence_penalty (1.5) und gemischte Inhalte (Code + Text) können die Akzeptanzrate erheblich drücken. Für llama.cpp-Nutzer lohnt sich die Überprüfung dieser Parameter.

— Lumeric Redaktion

Der Reddit-Nutzer spaceman_ fragt in r/LocalLLaMA, warum seine Draft-Akzeptanzrate beim spekulativen Decoding mit Qwen3 MTP (Multi-Token Prediction) nur 40–60 % erreicht, während andere Community-Mitglieder ~80 % berichten. Er verwendet llama.cpp mit Vulkan-Backend und testet sowohl Qwen3.5-122B als auch Qwen3.6-27B (Q6_K_L-Quant von Bartowski). In seiner Konfiguration fallen mehrere potenzielle Problemstellen auf: Die Draft-KV-Caches sind auf q4_0 quantisiert (--cache-type-k-draft / --cache-type-v-draft), was die Vorhersagequalität des Draft-Modells beeinträchtigen kann. Zudem ist presence_penalty auf 1.5 gesetzt – ein vergleichsweise hoher Wert, der die Token-Verteilung stärker verändert und damit die Übereinstimmung zwischen Draft- und Hauptmodell reduziert. Der gemischte Anwendungsfall (Code-Snippets im Chat) gilt generell als schwieriger für spekulatives Decoding, da Code-Token eine andere Verteilung aufweisen als Prosa. Die Sampling-Parameter (temp 1.0, top-p 0.95, top-k 20) sind weitgehend Standard. Der Post ist ein praxisnahes Beispiel für die Komplexität bei der Optimierung von MTP-Setups in llama.cpp.

Was wir noch wissen

Getestete Modelle: Qwen3.5-122B und Qwen3.6-27B (Q6_K_L) via Bartowski-GGUF
Draft-KV-Cache auf q4_0 quantisiert – mögliche Ursache für reduzierte Vorhersagequalität
presence_penalty=1.5 verändert Token-Verteilung und kann Draft-Akzeptanz senken
spec-draft-n-max 4: bis zu 4 spekulative Token pro Schritt
Vulkan-Backend, kein CUDA – könnte Einfluss auf Implementierungsdetails haben

Quelle lesenreddit.com

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Niedrige Draft-Akzeptanz bei Qwen3 MTP in llama.cpp: Ursachensuche

ToolsQwen Llama Hugging Face

CompaniesHugging Face

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Getestete Modelle: Qwen3.5-122B und Qwen3.6-27B (Q6_K_L) via Bartowski-GGUF
Draft-KV-Cache auf q4_0 quantisiert – mögliche Ursache für reduzierte Vorhersagequalität
presence_penalty=1.5 verändert Token-Verteilung und kann Draft-Akzeptanz senken
spec-draft-n-max 4: bis zu 4 spekulative Token pro Schritt
Vulkan-Backend, kein CUDA – könnte Einfluss auf Implementierungsdetails haben

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Niedrige Draft-Akzeptanz bei Qwen3 MTP in llama.cpp: Ursachensuche

Frag die KI zum Artikel

Verwandte Beiträge

Niedrige Draft-Akzeptanz bei Qwen3 MTP in llama.cpp: Ursachensuche

Frag die KI zum Artikel

Verwandte Beiträge