llama.cpp: MTP-Modus halbiert Qwen3-27B-Kontext von 137k auf 14k

Warum es zählt

Wer MTP-beschleunigtes Decoding in llama.cpp nutzt, muss mit massiven Kontexteinbußen rechnen — bei Qwen3-27B auf einer 3090 schrumpft das Fenster um ~90 %, was Long-Context-Anwendungen faktisch unbrauchbar macht.

— Lumeric Redaktion

Der Reddit-Nutzer regunakyle führt llama.cpp (Commit b4c0549a49be9e6dc59ac9d0a5bc21dbda910774) mit dem Modell Qwen3.6-27B-UD-Q4_K_XL auf einer einzelnen RTX 3090 aus. Ohne spezielle Optionen zeigt das integrierte Web-UI einen Kontextumfang von 137.000 Token. Sobald er die Flags `--spec-type draft-mtp --spec-draft-n-max 2` hinzufügt, um Multi-Token-Prediction (MTP) zu aktivieren, fällt die angezeigte Kontextgröße auf nur noch 14.000 Token — ein Rückgang von rund 90 %. Der KV-Cache wird dabei mit q8_0 für Key und Value betrieben, Flash-Attention ist aktiviert. Die Frage, ob dieses Verhalten erwartet bzw. normal ist, richtet sich an die llama.cpp-Community. Ein möglicher Grund: Das MTP-Draft-Modell belegt zusätzlichen VRAM, der sonst für den KV-Cache des Hauptmodells zur Verfügung stünde, was den maximal nutzbaren Kontext drastisch einschränkt.

Was wir noch wissen

Modell: Qwen3.6-27B-UD-Q4_K_XL.gguf, laufend auf einer einzelnen NVIDIA RTX 3090
llama.cpp-Version: Commit b4c0549a49be9e6dc59ac9d0a5bc21dbda910774
KV-Cache-Quantisierung: q8_0 für Key und Value, Flash-Attention aktiviert
Kontext ohne MTP: 137k Token; mit `--spec-draft-n-max 2`: nur noch 14k Token
Sampling-Parameter: temp 0.6, top-p 0.95, top-k 20

Quelle lesenreddit.com

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp: MTP-Modus halbiert Qwen3-27B-Kontext von 137k auf 14k

ToolsQwen Llama Hugging Face

CompaniesHugging Face

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Modell: Qwen3.6-27B-UD-Q4_K_XL.gguf, laufend auf einer einzelnen NVIDIA RTX 3090
llama.cpp-Version: Commit b4c0549a49be9e6dc59ac9d0a5bc21dbda910774
KV-Cache-Quantisierung: q8_0 für Key und Value, Flash-Attention aktiviert
Kontext ohne MTP: 137k Token; mit `--spec-draft-n-max 2`: nur noch 14k Token
Sampling-Parameter: temp 0.6, top-p 0.95, top-k 20

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp: MTP-Modus halbiert Qwen3-27B-Kontext von 137k auf 14k

Frag die KI zum Artikel

Verwandte Beiträge

llama.cpp: MTP-Modus halbiert Qwen3-27B-Kontext von 137k auf 14k

Frag die KI zum Artikel

Verwandte Beiträge