llama.cpp: MTP-Modus halbiert Qwen3-27B-Kontext von 137k auf 14k
Der Reddit-Nutzer regunakyle führt llama.cpp (Commit b4c0549a49be9e6dc59ac9d0a5bc21dbda910774) mit dem Modell Qwen3.6-27B-UD-Q4_K_XL auf einer einzelnen RTX 3090 aus. Ohne spezielle Optionen zeigt das integrierte Web-UI einen Kontextumfang von 137.000 Token. Sobald er die Flags `--spec-type draft-mtp --spec-draft-n-max 2` hinzufügt, um Multi-Token-Prediction (MTP) zu aktivieren, fällt die angezeigte Kontextgröße auf nur noch 14.000 Token — ein Rückgang von rund 90 %. Der KV-Cache wird dabei mit q8_0 für Key und Value betrieben, Flash-Attention ist aktiviert. Die Frage, ob dieses Verhalten erwartet bzw. normal ist, richtet sich an die llama.cpp-Community. Ein möglicher Grund: Das MTP-Draft-Modell belegt zusätzlichen VRAM, der sonst für den KV-Cache des Hauptmodells zur Verfügung stünde, was den maximal nutzbaren Kontext drastisch einschränkt.
- Modell: Qwen3.6-27B-UD-Q4_K_XL.gguf, laufend auf einer einzelnen NVIDIA RTX 3090
- llama.cpp-Version: Commit b4c0549a49be9e6dc59ac9d0a5bc21dbda910774
- KV-Cache-Quantisierung: q8_0 für Key und Value, Flash-Attention aktiviert
- Kontext ohne MTP: 137k Token; mit `--spec-draft-n-max 2`: nur noch 14k Token
- Sampling-Parameter: temp 0.6, top-p 0.95, top-k 20
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
llama.cpp: MTP-Modus halbiert Qwen3-27B-Kontext von 137k auf 14k
Der Reddit-Nutzer regunakyle führt llama.cpp (Commit b4c0549a49be9e6dc59ac9d0a5bc21dbda910774) mit dem Modell Qwen3.6-27B-UD-Q4_K_XL auf einer einzelnen RTX 3090 aus. Ohne spezielle Optionen zeigt das integrierte Web-UI einen Kontextumfang von 137.000 Token. Sobald er die Flags `--spec-type draft-mtp --spec-draft-n-max 2` hinzufügt, um Multi-Token-Prediction (MTP) zu aktivieren, fällt die angezeigte Kontextgröße auf nur noch 14.000 Token — ein Rückgang von rund 90 %. Der KV-Cache wird dabei mit q8_0 für Key und Value betrieben, Flash-Attention ist aktiviert. Die Frage, ob dieses Verhalten erwartet bzw. normal ist, richtet sich an die llama.cpp-Community. Ein möglicher Grund: Das MTP-Draft-Modell belegt zusätzlichen VRAM, der sonst für den KV-Cache des Hauptmodells zur Verfügung stünde, was den maximal nutzbaren Kontext drastisch einschränkt.
- Modell: Qwen3.6-27B-UD-Q4_K_XL.gguf, laufend auf einer einzelnen NVIDIA RTX 3090
- llama.cpp-Version: Commit b4c0549a49be9e6dc59ac9d0a5bc21dbda910774
- KV-Cache-Quantisierung: q8_0 für Key und Value, Flash-Attention aktiviert
- Kontext ohne MTP: 137k Token; mit `--spec-draft-n-max 2`: nur noch 14k Token
- Sampling-Parameter: temp 0.6, top-p 0.95, top-k 20
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.