Qwen 3.6 27B mit MTP-Spekulation in vLLM: Tps-Einbruch ab 70k Token Kontext

CompaniesNVIDIA

Warum es zählt

MTP-Spekulation in vLLM bringt bei kleinen Kontexten signifikante Speedups, skaliert aber schlecht bei langen Kontexten – wer Qwen 3.6 27B für agentic Coding mit großem Kontext einsetzt, fährt aktuell ohne MTP stabiler (26–27 tps flat statt Einbruch auf 15 tps).

— Lumeric Redaktion

Der Reddit-Nutzer niellsro betreibt Qwen 3.6 27B (unkomprimiert) auf vier NVIDIA RTX 3090 GPUs mit Tensor Parallelism 4 unter vLLM v0.19.0 in Docker. Mit aktiviertem MTP (num_speculative_tokens: 3) erreicht er bei kurzen Kontexten 48–50 Token/s, sieht jedoch bei Kontextlängen über 70–80k Token einen drastischen Einbruch auf 15–20 tps. Ohne MTP startet der Durchsatz bei ~30 tps und bleibt auch bei langen Kontexten relativ stabil bei 26–27 tps. Das Setup nutzt Chunked Prefill, Prefix Caching, eine maximale Modelllänge von 262.144 Token sowie den Qwen3-Reasoning-Parser für agentic Coding-Workflows. Das Problem tritt praktisch relevant auf, da Kontext-Größen von 70k+ beim agentic Coding selbst bei bewusstem Management schwer zu vermeiden sind. Der Nutzer hat MTP daraufhin deaktiviert und sucht nach Optimierungshinweisen aus der Community. Der Post illustriert eine bekannte Schwäche spekulativer Dekodierung: Der Overhead für Verifikation und Verwaltung der Draft-Token wächst mit der KV-Cache-Größe überproportional.

Was wir noch wissen

Setup: 4× RTX 3090, Tensor Parallel Size 4, vLLM v0.19.0, Modell unkomprimiert
MTP mit 3 spekulativen Token: 48–50 tps bei kurzem Kontext, 15–20 tps ab >70k Token
Ohne MTP: stabilere 26–30 tps unabhängig von der Kontextlänge
Max. Kontextlänge im Setup: 262.144 Token; Chunked Prefill und Prefix Caching aktiviert
Einsatzszenario: Agentic Coding, wodurch Kontexte von 70k+ Token häufig unvermeidlich sind

Quelle lesenreddit.com

Inferenz Infra Foundation Modelle Agents

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen 3.6 27B mit MTP-Spekulation in vLLM: Tps-Einbruch ab 70k Token Kontext

ToolsQwen v0 NVIDIA Hardware Vercel

CompaniesNVIDIA

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Setup: 4× RTX 3090, Tensor Parallel Size 4, vLLM v0.19.0, Modell unkomprimiert
MTP mit 3 spekulativen Token: 48–50 tps bei kurzem Kontext, 15–20 tps ab >70k Token
Ohne MTP: stabilere 26–30 tps unabhängig von der Kontextlänge
Max. Kontextlänge im Setup: 262.144 Token; Chunked Prefill und Prefix Caching aktiviert
Einsatzszenario: Agentic Coding, wodurch Kontexte von 70k+ Token häufig unvermeidlich sind

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen 3.6 27B mit MTP-Spekulation in vLLM: Tps-Einbruch ab 70k Token Kontext

Frag die KI zum Artikel

Verwandte Beiträge

Qwen 3.6 27B mit MTP-Spekulation in vLLM: Tps-Einbruch ab 70k Token Kontext

Frag die KI zum Artikel

Verwandte Beiträge