Tesla P40 mit Qwen 3.6 27B: MTP Spec Decoding scheitert bei K-Cache-Quantisierung

CompaniesNVIDIA

Warum es zählt

Wer MTP Spec Decoding mit llama.cpp (atomic-Fork) auf Pascal-GPUs wie der P40 nutzen will, muss den K-Cache auf F16 belassen – K-Cache-Quantisierung scheint mit MTP inkompatibel zu sein und produziert Garbage Output.

— Lumeric Redaktion

Ein Reddit-Nutzer (u/PairOfRussels) berichtet von erfolgreichen Experimenten mit Qwen 3.6 27B Q5_K_XL auf einer NVIDIA Tesla P40 – einer Consumer/Prosumer-GPU der Pascal-Generation mit 24 GB VRAM. Mit dem „atomic"-Fork von llama.cpp, der MTP (Multi-Token Prediction) Spec Decoding unterstützt, erreicht er 20 Token/s. Das funktioniert jedoch nur, wenn der K-Cache auf F16 belassen wird. Sobald eine Quantisierung des K-Cache (q4_0 oder turbo3) aktiviert wird, liefert das Modell nur unleserliche Garbage-Zeichen. Im Kontrast dazu läuft turbo3 K-Cache problemlos ohne MTP auf dem „turboquant"-Fork. Der Nutzer publiziert sein vollständiges PowerShell-Startskript mit Parametern wie `--spec-type nextn`, `--draft-max 6`, `-c 45000` und `--cache-type-k f16`. Die Ursache der Inkompatibilität zwischen MTP und K-Cache-Quantisierung auf der P40 ist ungeklärt – möglicherweise ein Bug im atomic-Fork oder eine Einschränkung der Pascal-Architektur bei gemischten Präzisionen.

Was wir noch wissen

Modell: Qwen3.6-27B-UD-Q5_K_XL.gguf, laufend auf einer Tesla P40 (24 GB VRAM)
Durchsatz: 20 Token/s mit MTP Spec Decoding (--spec-type nextn, --draft-max 6)
Problem: K-Cache-Quantisierung (q4_0, turbo3) führt zu Garbage-Output bei aktivem MTP
Workaround: --cache-type-k f16 löst das Problem, V-Cache bleibt auf turbo3
Kontext: 45.000 Token Kontextfenster, Batch-Größe 174, vollständig auf GPU (--gpu-layers 999)

Quelle lesenreddit.com

Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

MEINUNG

reddit.com· r/LocalLLaMA1w