Hobbyist baut 16-Node-DGX-Spark-Cluster mit 200 Gbps Fabric
Der Reddit-Nutzer u/Kurcide hat seinen selbst gebauten Cluster aus 16 Nvidia DGX Sparks in Betrieb genommen. Jedes Gerät ist über ein einzelnes QSFP56-Kabel mit einem FS N8510 Fabric Switch verbunden; das DGX Spark bondet dabei zwei NIC-Interfaces, sodass effektiv 200 Gbps pro Node (gemessen: 100–111 Gbps pro Rail) erreicht werden. Die Inbetriebnahme umfasste unter anderem Passwordless-SSH, Jumbo Frames und IP-Konfiguration, die per Skript automatisiert wurden – der Aufwand war laut Autor geringer als erwartet, ca. 20 Minuten Update-Zeit pro Node. Kernmotivation ist die maximale Unified-Memory-Kapazität im Nvidia-Ökosystem: Mit 8 Nodes wurde GLM-5.1-NVFP4 (434 GB) bei Tensor-Parallelism=8 bereits live serviert. Mit dem vollständigen 16-Node-Setup sollen nun DeepSeek und Kimi getestet werden. Längerfristig plant der Nutzer einen Prefill/Decode-Split: Der Spark-Cluster übernimmt das speicherintensive Prefill, während 2–4 Mac Studio M5 Ultra (sobald verfügbar) den Decode-Part übernehmen sollen. Das übrige Rack enthält u. a. eine QNAP-NAS mit 374 TB (All-U.2), eine SuperMicro-Station mit 4× H100 NVL sowie eine GH200-Node.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Hobbyist baut 16-Node-DGX-Spark-Cluster mit 200 Gbps Fabric
Der Reddit-Nutzer u/Kurcide hat seinen selbst gebauten Cluster aus 16 Nvidia DGX Sparks in Betrieb genommen. Jedes Gerät ist über ein einzelnes QSFP56-Kabel mit einem FS N8510 Fabric Switch verbunden; das DGX Spark bondet dabei zwei NIC-Interfaces, sodass effektiv 200 Gbps pro Node (gemessen: 100–111 Gbps pro Rail) erreicht werden. Die Inbetriebnahme umfasste unter anderem Passwordless-SSH, Jumbo Frames und IP-Konfiguration, die per Skript automatisiert wurden – der Aufwand war laut Autor geringer als erwartet, ca. 20 Minuten Update-Zeit pro Node. Kernmotivation ist die maximale Unified-Memory-Kapazität im Nvidia-Ökosystem: Mit 8 Nodes wurde GLM-5.1-NVFP4 (434 GB) bei Tensor-Parallelism=8 bereits live serviert. Mit dem vollständigen 16-Node-Setup sollen nun DeepSeek und Kimi getestet werden. Längerfristig plant der Nutzer einen Prefill/Decode-Split: Der Spark-Cluster übernimmt das speicherintensive Prefill, während 2–4 Mac Studio M5 Ultra (sobald verfügbar) den Decode-Part übernehmen sollen. Das übrige Rack enthält u. a. eine QNAP-NAS mit 374 TB (All-U.2), eine SuperMicro-Station mit 4× H100 NVL sowie eine GH200-Node.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.