GLM-5.2 NVFP4 auf vier DGX Sparks: MTP-Bug gefixt, 24 tok/s bei 128K Kontext
Warum es zählt
Der Bug steckte in SpeculativeConfig.create_draft_parallel_config(): decode_context_parallel_size wurde nicht kopiert und lautlos auf 1 gesetzt, was DCP-Sharding im Draft korrumpierte. Der Fix ist eine einzelne Konfigurationszeile in vLLM – relevant für alle, die MTP-Spekulation mit DCP kombinieren.
— Lumeric Redaktion
Decode-Throughput (tok/s) bei 128K Kontext, GLM-5.2 NVFP4 auf 4× DGX Spark · Spitzenwert
14.9%
DCP4/128K/MTP1 (alt)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
GLM-5.2 NVFP4 auf vier DGX Sparks: MTP-Bug gefixt, 24 tok/s bei 128K Kontext
Warum es zählt
Der Bug steckte in SpeculativeConfig.create_draft_parallel_config(): decode_context_parallel_size wurde nicht kopiert und lautlos auf 1 gesetzt, was DCP-Sharding im Draft korrumpierte. Der Fix ist eine einzelne Konfigurationszeile in vLLM – relevant für alle, die MTP-Spekulation mit DCP kombinieren.
— Lumeric Redaktion
Decode-Throughput (tok/s) bei 128K Kontext, GLM-5.2 NVFP4 auf 4× DGX Spark · Spitzenwert
14.9%
DCP4/128K/MTP1 (alt)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.