Qwen 3.6 27B mit MTP-Spekulation in vLLM: Tps-Einbruch ab 70k Token Kontext
Der Reddit-Nutzer niellsro betreibt Qwen 3.6 27B (unkomprimiert) auf vier NVIDIA RTX 3090 GPUs mit Tensor Parallelism 4 unter vLLM v0.19.0 in Docker. Mit aktiviertem MTP (num_speculative_tokens: 3) erreicht er bei kurzen Kontexten 48–50 Token/s, sieht jedoch bei Kontextlängen über 70–80k Token einen drastischen Einbruch auf 15–20 tps. Ohne MTP startet der Durchsatz bei ~30 tps und bleibt auch bei langen Kontexten relativ stabil bei 26–27 tps. Das Setup nutzt Chunked Prefill, Prefix Caching, eine maximale Modelllänge von 262.144 Token sowie den Qwen3-Reasoning-Parser für agentic Coding-Workflows. Das Problem tritt praktisch relevant auf, da Kontext-Größen von 70k+ beim agentic Coding selbst bei bewusstem Management schwer zu vermeiden sind. Der Nutzer hat MTP daraufhin deaktiviert und sucht nach Optimierungshinweisen aus der Community. Der Post illustriert eine bekannte Schwäche spekulativer Dekodierung: Der Overhead für Verifikation und Verwaltung der Draft-Token wächst mit der KV-Cache-Größe überproportional.
- Setup: 4× RTX 3090, Tensor Parallel Size 4, vLLM v0.19.0, Modell unkomprimiert
- MTP mit 3 spekulativen Token: 48–50 tps bei kurzem Kontext, 15–20 tps ab >70k Token
- Ohne MTP: stabilere 26–30 tps unabhängig von der Kontextlänge
- Max. Kontextlänge im Setup: 262.144 Token; Chunked Prefill und Prefix Caching aktiviert
- Einsatzszenario: Agentic Coding, wodurch Kontexte von 70k+ Token häufig unvermeidlich sind
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Qwen 3.6 27B mit MTP-Spekulation in vLLM: Tps-Einbruch ab 70k Token Kontext
Der Reddit-Nutzer niellsro betreibt Qwen 3.6 27B (unkomprimiert) auf vier NVIDIA RTX 3090 GPUs mit Tensor Parallelism 4 unter vLLM v0.19.0 in Docker. Mit aktiviertem MTP (num_speculative_tokens: 3) erreicht er bei kurzen Kontexten 48–50 Token/s, sieht jedoch bei Kontextlängen über 70–80k Token einen drastischen Einbruch auf 15–20 tps. Ohne MTP startet der Durchsatz bei ~30 tps und bleibt auch bei langen Kontexten relativ stabil bei 26–27 tps. Das Setup nutzt Chunked Prefill, Prefix Caching, eine maximale Modelllänge von 262.144 Token sowie den Qwen3-Reasoning-Parser für agentic Coding-Workflows. Das Problem tritt praktisch relevant auf, da Kontext-Größen von 70k+ beim agentic Coding selbst bei bewusstem Management schwer zu vermeiden sind. Der Nutzer hat MTP daraufhin deaktiviert und sucht nach Optimierungshinweisen aus der Community. Der Post illustriert eine bekannte Schwäche spekulativer Dekodierung: Der Overhead für Verifikation und Verwaltung der Draft-Token wächst mit der KV-Cache-Größe überproportional.
- Setup: 4× RTX 3090, Tensor Parallel Size 4, vLLM v0.19.0, Modell unkomprimiert
- MTP mit 3 spekulativen Token: 48–50 tps bei kurzem Kontext, 15–20 tps ab >70k Token
- Ohne MTP: stabilere 26–30 tps unabhängig von der Kontextlänge
- Max. Kontextlänge im Setup: 262.144 Token; Chunked Prefill und Prefix Caching aktiviert
- Einsatzszenario: Agentic Coding, wodurch Kontexte von 70k+ Token häufig unvermeidlich sind
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.