GLM-5.2 NVFP4 auf vier DGX Sparks: MTP-Bug gefixt, 24 tok/s bei 128K Kontext

Warum es zählt

Der Bug steckte in SpeculativeConfig.create_draft_parallel_config(): decode_context_parallel_size wurde nicht kopiert und lautlos auf 1 gesetzt, was DCP-Sharding im Draft korrumpierte. Der Fix ist eine einzelne Konfigurationszeile in vLLM – relevant für alle, die MTP-Spekulation mit DCP kombinieren.

— Lumeric Redaktion

Quelle lesenreddit.com

Decode-Throughput (tok/s) bei 128K Kontext, GLM-5.2 NVFP4 auf 4× DGX Spark · Spitzenwert

14.9%

DCP4/128K/MTP1 (alt)

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

GLM-5.2 NVFP4 auf vier DGX Sparks: MTP-Bug gefixt, 24 tok/s bei 128K Kontext

Warum es zählt

— Lumeric Redaktion

Decode-Throughput (tok/s) bei 128K Kontext, GLM-5.2 NVFP4 auf 4× DGX Spark · Spitzenwert

14.9%

DCP4/128K/MTP1 (alt)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

GLM-5.2 NVFP4 auf vier DGX Sparks: MTP-Bug gefixt, 24 tok/s bei 128K Kontext

Frag die KI zum Artikel

Verwandte Beiträge

GLM-5.2 NVFP4 auf vier DGX Sparks: MTP-Bug gefixt, 24 tok/s bei 128K Kontext

Frag die KI zum Artikel

Verwandte Beiträge