Zai ersetzt Netzwerkarchitektur für GLM-5.1-Inferenz – 40 % weniger Latenz, 33 % niedrigere Kosten

Warum es zählt

ZCube zeigt, dass Netzwerktopologie ein unterschätzter Engpass bei disaggregierter PD-Inferenz ist – wer KV-Cache-Transfers optimiert, kann ohne neue GPUs oder Software 15 % mehr Throughput und 40 % weniger Tail-Latenz herausholen.

— Lumeric Redaktion

Zai hat auf einem Cluster mit tausend GPUs die Netzwerkarchitektur für die Produktions-Inferenz von GLM-5.1 (Coding) ausgetauscht – von der bisher genutzten ROFT-Topologie hin zu einem selbst entwickelten System namens ZCube, das in Zusammenarbeit mit der Tsinghua University und HarnetsAI entstand. Das Kernanliegen: Bei Prefill-Decode-disaggregierter Inferenz entstehen hochasymmetrische KV-Cache-Transfers zwischen Nodes. ROFT wurde für Trainings-Workloads konzipiert, dessen statisches Rail-Mapping passt aber schlecht zu den dynamischen Traffic-Mustern der PD-Disaggregation – die Folge sind Hotspots auf einzelnen Leaf-Switches und PFC-Backpressure. ZCube löst das Problem durch eine vollständig abgeflachte Topologie: Die Spine-Schicht entfällt komplett, stattdessen wird ein vollständig bipartites Interconnect zwischen zwei Switch-Gruppen genutzt. Die Produktionsmessungen auf identischer Hardware und identischem Software-Stack zeigen: Switch- und Optikkosten sanken um 33 %, GPU-Inferenz-Throughput stieg um 15 %, und die P99-Tail-Latenz auf den ersten Token fiel um 40,6 %. Bemerkenswert ist, dass bessere Netzwerkperformance hier ausnahmsweise mit niedrigeren, nicht höheren Hardwarekosten einhergeht.

Was wir noch wissen

ZCube entstand in Zusammenarbeit mit der Tsinghua University und HarnetsAI
Cluster-Größe: 1000 GPUs, Workload: GLM-5.1 Coding Inference in Produktion
ROFT-Schwäche: Statisches Rail-Mapping erzeugt bei PD-Disaggregation Hotspots auf Leaf-Switches und PFC-Backpressure
ZCube-Kern: Vollständig bipartites Interconnect zwischen zwei Switch-Gruppen, keine Spine-Schicht mehr
Hardware-, Software-Stack und Modell blieben unverändert – nur die Netzwerktopologie wurde ausgetauscht

Quelle lesenreddit.com

40,6 % P99-Latenzreduktion

First-Token-Tail-Latenz auf GLM-5.1-Cluster

Inferenz Infra Foundation Modelle Chips Silizium

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Zai ersetzt Netzwerkarchitektur für GLM-5.1-Inferenz – 40 % weniger Latenz, 33 % niedrigere Kosten

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

ZCube entstand in Zusammenarbeit mit der Tsinghua University und HarnetsAI
Cluster-Größe: 1000 GPUs, Workload: GLM-5.1 Coding Inference in Produktion
ROFT-Schwäche: Statisches Rail-Mapping erzeugt bei PD-Disaggregation Hotspots auf Leaf-Switches und PFC-Backpressure
ZCube-Kern: Vollständig bipartites Interconnect zwischen zwei Switch-Gruppen, keine Spine-Schicht mehr
Hardware-, Software-Stack und Modell blieben unverändert – nur die Netzwerktopologie wurde ausgetauscht

40,6 % P99-Latenzreduktion

First-Token-Tail-Latenz auf GLM-5.1-Cluster

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Zai ersetzt Netzwerkarchitektur für GLM-5.1-Inferenz – 40 % weniger Latenz, 33 % niedrigere Kosten

Frag die KI zum Artikel

Verwandte Beiträge

Zai ersetzt Netzwerkarchitektur für GLM-5.1-Inferenz – 40 % weniger Latenz, 33 % niedrigere Kosten

Frag die KI zum Artikel

Verwandte Beiträge