Tesla P40 mit Qwen 3.6 27B: MTP Spec Decoding scheitert bei K-Cache-Quantisierung
Ein Reddit-Nutzer (u/PairOfRussels) berichtet von erfolgreichen Experimenten mit Qwen 3.6 27B Q5_K_XL auf einer NVIDIA Tesla P40 – einer Consumer/Prosumer-GPU der Pascal-Generation mit 24 GB VRAM. Mit dem „atomic"-Fork von llama.cpp, der MTP (Multi-Token Prediction) Spec Decoding unterstützt, erreicht er 20 Token/s. Das funktioniert jedoch nur, wenn der K-Cache auf F16 belassen wird. Sobald eine Quantisierung des K-Cache (q4_0 oder turbo3) aktiviert wird, liefert das Modell nur unleserliche Garbage-Zeichen. Im Kontrast dazu läuft turbo3 K-Cache problemlos ohne MTP auf dem „turboquant"-Fork. Der Nutzer publiziert sein vollständiges PowerShell-Startskript mit Parametern wie `--spec-type nextn`, `--draft-max 6`, `-c 45000` und `--cache-type-k f16`. Die Ursache der Inkompatibilität zwischen MTP und K-Cache-Quantisierung auf der P40 ist ungeklärt – möglicherweise ein Bug im atomic-Fork oder eine Einschränkung der Pascal-Architektur bei gemischten Präzisionen.
- Modell: Qwen3.6-27B-UD-Q5_K_XL.gguf, laufend auf einer Tesla P40 (24 GB VRAM)
- Durchsatz: 20 Token/s mit MTP Spec Decoding (--spec-type nextn, --draft-max 6)
- Problem: K-Cache-Quantisierung (q4_0, turbo3) führt zu Garbage-Output bei aktivem MTP
- Workaround: --cache-type-k f16 löst das Problem, V-Cache bleibt auf turbo3
- Kontext: 45.000 Token Kontextfenster, Batch-Größe 174, vollständig auf GPU (--gpu-layers 999)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Tesla P40 mit Qwen 3.6 27B: MTP Spec Decoding scheitert bei K-Cache-Quantisierung
Ein Reddit-Nutzer (u/PairOfRussels) berichtet von erfolgreichen Experimenten mit Qwen 3.6 27B Q5_K_XL auf einer NVIDIA Tesla P40 – einer Consumer/Prosumer-GPU der Pascal-Generation mit 24 GB VRAM. Mit dem „atomic"-Fork von llama.cpp, der MTP (Multi-Token Prediction) Spec Decoding unterstützt, erreicht er 20 Token/s. Das funktioniert jedoch nur, wenn der K-Cache auf F16 belassen wird. Sobald eine Quantisierung des K-Cache (q4_0 oder turbo3) aktiviert wird, liefert das Modell nur unleserliche Garbage-Zeichen. Im Kontrast dazu läuft turbo3 K-Cache problemlos ohne MTP auf dem „turboquant"-Fork. Der Nutzer publiziert sein vollständiges PowerShell-Startskript mit Parametern wie `--spec-type nextn`, `--draft-max 6`, `-c 45000` und `--cache-type-k f16`. Die Ursache der Inkompatibilität zwischen MTP und K-Cache-Quantisierung auf der P40 ist ungeklärt – möglicherweise ein Bug im atomic-Fork oder eine Einschränkung der Pascal-Architektur bei gemischten Präzisionen.
- Modell: Qwen3.6-27B-UD-Q5_K_XL.gguf, laufend auf einer Tesla P40 (24 GB VRAM)
- Durchsatz: 20 Token/s mit MTP Spec Decoding (--spec-type nextn, --draft-max 6)
- Problem: K-Cache-Quantisierung (q4_0, turbo3) führt zu Garbage-Output bei aktivem MTP
- Workaround: --cache-type-k f16 löst das Problem, V-Cache bleibt auf turbo3
- Kontext: 45.000 Token Kontextfenster, Batch-Größe 174, vollständig auf GPU (--gpu-layers 999)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.