Zai ersetzt Netzwerkarchitektur für GLM-5.1-Inferenz – 40 % weniger Latenz, 33 % niedrigere Kosten
Zai hat auf einem Cluster mit tausend GPUs die Netzwerkarchitektur für die Produktions-Inferenz von GLM-5.1 (Coding) ausgetauscht – von der bisher genutzten ROFT-Topologie hin zu einem selbst entwickelten System namens ZCube, das in Zusammenarbeit mit der Tsinghua University und HarnetsAI entstand. Das Kernanliegen: Bei Prefill-Decode-disaggregierter Inferenz entstehen hochasymmetrische KV-Cache-Transfers zwischen Nodes. ROFT wurde für Trainings-Workloads konzipiert, dessen statisches Rail-Mapping passt aber schlecht zu den dynamischen Traffic-Mustern der PD-Disaggregation – die Folge sind Hotspots auf einzelnen Leaf-Switches und PFC-Backpressure. ZCube löst das Problem durch eine vollständig abgeflachte Topologie: Die Spine-Schicht entfällt komplett, stattdessen wird ein vollständig bipartites Interconnect zwischen zwei Switch-Gruppen genutzt. Die Produktionsmessungen auf identischer Hardware und identischem Software-Stack zeigen: Switch- und Optikkosten sanken um 33 %, GPU-Inferenz-Throughput stieg um 15 %, und die P99-Tail-Latenz auf den ersten Token fiel um 40,6 %. Bemerkenswert ist, dass bessere Netzwerkperformance hier ausnahmsweise mit niedrigeren, nicht höheren Hardwarekosten einhergeht.
- ZCube entstand in Zusammenarbeit mit der Tsinghua University und HarnetsAI
- Cluster-Größe: 1000 GPUs, Workload: GLM-5.1 Coding Inference in Produktion
- ROFT-Schwäche: Statisches Rail-Mapping erzeugt bei PD-Disaggregation Hotspots auf Leaf-Switches und PFC-Backpressure
- ZCube-Kern: Vollständig bipartites Interconnect zwischen zwei Switch-Gruppen, keine Spine-Schicht mehr
- Hardware-, Software-Stack und Modell blieben unverändert – nur die Netzwerktopologie wurde ausgetauscht
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
GPU-FPGA-System beschleunigt LLM-Inferenz um Faktor 2,2 bei 4,7× weniger Energie
- FORSCHUNGarxiv.org3d
ML-Framework beschleunigt Divisible-Load-Scheduling um bis zu 100×
- FORSCHUNGarxiv.org3w
Kosteneffizientere Netzwerk-Topologien für MoE-LLM-Serving
- MEINUNGtowardsdatascience.com2w
Drei kontraintuitive Netzwerk-Entscheidungen hinter OpenAIs 131.000-GPU-Trainingscluster
Zai ersetzt Netzwerkarchitektur für GLM-5.1-Inferenz – 40 % weniger Latenz, 33 % niedrigere Kosten
Zai hat auf einem Cluster mit tausend GPUs die Netzwerkarchitektur für die Produktions-Inferenz von GLM-5.1 (Coding) ausgetauscht – von der bisher genutzten ROFT-Topologie hin zu einem selbst entwickelten System namens ZCube, das in Zusammenarbeit mit der Tsinghua University und HarnetsAI entstand. Das Kernanliegen: Bei Prefill-Decode-disaggregierter Inferenz entstehen hochasymmetrische KV-Cache-Transfers zwischen Nodes. ROFT wurde für Trainings-Workloads konzipiert, dessen statisches Rail-Mapping passt aber schlecht zu den dynamischen Traffic-Mustern der PD-Disaggregation – die Folge sind Hotspots auf einzelnen Leaf-Switches und PFC-Backpressure. ZCube löst das Problem durch eine vollständig abgeflachte Topologie: Die Spine-Schicht entfällt komplett, stattdessen wird ein vollständig bipartites Interconnect zwischen zwei Switch-Gruppen genutzt. Die Produktionsmessungen auf identischer Hardware und identischem Software-Stack zeigen: Switch- und Optikkosten sanken um 33 %, GPU-Inferenz-Throughput stieg um 15 %, und die P99-Tail-Latenz auf den ersten Token fiel um 40,6 %. Bemerkenswert ist, dass bessere Netzwerkperformance hier ausnahmsweise mit niedrigeren, nicht höheren Hardwarekosten einhergeht.
- ZCube entstand in Zusammenarbeit mit der Tsinghua University und HarnetsAI
- Cluster-Größe: 1000 GPUs, Workload: GLM-5.1 Coding Inference in Produktion
- ROFT-Schwäche: Statisches Rail-Mapping erzeugt bei PD-Disaggregation Hotspots auf Leaf-Switches und PFC-Backpressure
- ZCube-Kern: Vollständig bipartites Interconnect zwischen zwei Switch-Gruppen, keine Spine-Schicht mehr
- Hardware-, Software-Stack und Modell blieben unverändert – nur die Netzwerktopologie wurde ausgetauscht
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
GPU-FPGA-System beschleunigt LLM-Inferenz um Faktor 2,2 bei 4,7× weniger Energie
- FORSCHUNGarxiv.org3d
ML-Framework beschleunigt Divisible-Load-Scheduling um bis zu 100×
- FORSCHUNGarxiv.org3w
Kosteneffizientere Netzwerk-Topologien für MoE-LLM-Serving
- MEINUNGtowardsdatascience.com2w
Drei kontraintuitive Netzwerk-Entscheidungen hinter OpenAIs 131.000-GPU-Trainingscluster