Niedrige Draft-Akzeptanz bei Qwen3 MTP in llama.cpp: Ursachensuche
Der Reddit-Nutzer spaceman_ fragt in r/LocalLLaMA, warum seine Draft-Akzeptanzrate beim spekulativen Decoding mit Qwen3 MTP (Multi-Token Prediction) nur 40–60 % erreicht, während andere Community-Mitglieder ~80 % berichten. Er verwendet llama.cpp mit Vulkan-Backend und testet sowohl Qwen3.5-122B als auch Qwen3.6-27B (Q6_K_L-Quant von Bartowski). In seiner Konfiguration fallen mehrere potenzielle Problemstellen auf: Die Draft-KV-Caches sind auf q4_0 quantisiert (--cache-type-k-draft / --cache-type-v-draft), was die Vorhersagequalität des Draft-Modells beeinträchtigen kann. Zudem ist presence_penalty auf 1.5 gesetzt – ein vergleichsweise hoher Wert, der die Token-Verteilung stärker verändert und damit die Übereinstimmung zwischen Draft- und Hauptmodell reduziert. Der gemischte Anwendungsfall (Code-Snippets im Chat) gilt generell als schwieriger für spekulatives Decoding, da Code-Token eine andere Verteilung aufweisen als Prosa. Die Sampling-Parameter (temp 1.0, top-p 0.95, top-k 20) sind weitgehend Standard. Der Post ist ein praxisnahes Beispiel für die Komplexität bei der Optimierung von MTP-Setups in llama.cpp.
- Getestete Modelle: Qwen3.5-122B und Qwen3.6-27B (Q6_K_L) via Bartowski-GGUF
- Draft-KV-Cache auf q4_0 quantisiert – mögliche Ursache für reduzierte Vorhersagequalität
- presence_penalty=1.5 verändert Token-Verteilung und kann Draft-Akzeptanz senken
- spec-draft-n-max 4: bis zu 4 spekulative Token pro Schritt
- Vulkan-Backend, kein CUDA – könnte Einfluss auf Implementierungsdetails haben
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Niedrige Draft-Akzeptanz bei Qwen3 MTP in llama.cpp: Ursachensuche
Der Reddit-Nutzer spaceman_ fragt in r/LocalLLaMA, warum seine Draft-Akzeptanzrate beim spekulativen Decoding mit Qwen3 MTP (Multi-Token Prediction) nur 40–60 % erreicht, während andere Community-Mitglieder ~80 % berichten. Er verwendet llama.cpp mit Vulkan-Backend und testet sowohl Qwen3.5-122B als auch Qwen3.6-27B (Q6_K_L-Quant von Bartowski). In seiner Konfiguration fallen mehrere potenzielle Problemstellen auf: Die Draft-KV-Caches sind auf q4_0 quantisiert (--cache-type-k-draft / --cache-type-v-draft), was die Vorhersagequalität des Draft-Modells beeinträchtigen kann. Zudem ist presence_penalty auf 1.5 gesetzt – ein vergleichsweise hoher Wert, der die Token-Verteilung stärker verändert und damit die Übereinstimmung zwischen Draft- und Hauptmodell reduziert. Der gemischte Anwendungsfall (Code-Snippets im Chat) gilt generell als schwieriger für spekulatives Decoding, da Code-Token eine andere Verteilung aufweisen als Prosa. Die Sampling-Parameter (temp 1.0, top-p 0.95, top-k 20) sind weitgehend Standard. Der Post ist ein praxisnahes Beispiel für die Komplexität bei der Optimierung von MTP-Setups in llama.cpp.
- Getestete Modelle: Qwen3.5-122B und Qwen3.6-27B (Q6_K_L) via Bartowski-GGUF
- Draft-KV-Cache auf q4_0 quantisiert – mögliche Ursache für reduzierte Vorhersagequalität
- presence_penalty=1.5 verändert Token-Verteilung und kann Draft-Akzeptanz senken
- spec-draft-n-max 4: bis zu 4 spekulative Token pro Schritt
- Vulkan-Backend, kein CUDA – könnte Einfluss auf Implementierungsdetails haben
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.