wird geladen

Hobbyist baut 16-Node-DGX-Spark-Cluster mit 200 Gbps Fabric · Lumeric

Beitrag

LAUNCH

reddit.com· r/LocalLLaMA3w

Hobbyist baut 16-Node-DGX-Spark-Cluster mit 200 Gbps Fabric

ToolsNVIDIA Hardware DeepSeek

CompaniesDeepSeek NVIDIA

Warum es zählt

Mit 8 Nodes wurde bereits GLM-5.1-NVFP4 (434 GB) bei TP=8 ausgeliefert – 16 Nodes ermöglichen noch größere Modelle. Der geplante Prefill/Decode-Split mit Mac Studio M5 Ultra zeigt, wie heterogene Consumer- und Profi-Hardware für LLM-Inferenz kombiniert werden kann.

— Lumeric Redaktion

Der Reddit-Nutzer u/Kurcide hat seinen selbst gebauten Cluster aus 16 Nvidia DGX Sparks in Betrieb genommen. Jedes Gerät ist über ein einzelnes QSFP56-Kabel mit einem FS N8510 Fabric Switch verbunden; das DGX Spark bondet dabei zwei NIC-Interfaces, sodass effektiv 200 Gbps pro Node (gemessen: 100–111 Gbps pro Rail) erreicht werden. Die Inbetriebnahme umfasste unter anderem Passwordless-SSH, Jumbo Frames und IP-Konfiguration, die per Skript automatisiert wurden – der Aufwand war laut Autor geringer als erwartet, ca. 20 Minuten Update-Zeit pro Node. Kernmotivation ist die maximale Unified-Memory-Kapazität im Nvidia-Ökosystem: Mit 8 Nodes wurde GLM-5.1-NVFP4 (434 GB) bei Tensor-Parallelism=8 bereits live serviert. Mit dem vollständigen 16-Node-Setup sollen nun DeepSeek und Kimi getestet werden. Längerfristig plant der Nutzer einen Prefill/Decode-Split: Der Spark-Cluster übernimmt das speicherintensive Prefill, während 2–4 Mac Studio M5 Ultra (sobald verfügbar) den Decode-Part übernehmen sollen. Das übrige Rack enthält u. a. eine QNAP-NAS mit 374 TB (All-U.2), eine SuperMicro-Station mit 4× H100 NVL sowie eine GH200-Node.

Quelle lesenreddit.com

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

LAUNCH

reddit.com· r/LocalLLaMA3w

Hobbyist baut 16-Node-DGX-Spark-Cluster mit 200 Gbps Fabric

ToolsNVIDIA Hardware DeepSeek

CompaniesDeepSeek NVIDIA

Warum es zählt

Mit 8 Nodes wurde bereits GLM-5.1-NVFP4 (434 GB) bei TP=8 ausgeliefert – 16 Nodes ermöglichen noch größere Modelle. Der geplante Prefill/Decode-Split mit Mac Studio M5 Ultra zeigt, wie heterogene Consumer- und Profi-Hardware für LLM-Inferenz kombiniert werden kann.

— Lumeric Redaktion

Der Reddit-Nutzer u/Kurcide hat seinen selbst gebauten Cluster aus 16 Nvidia DGX Sparks in Betrieb genommen. Jedes Gerät ist über ein einzelnes QSFP56-Kabel mit einem FS N8510 Fabric Switch verbunden; das DGX Spark bondet dabei zwei NIC-Interfaces, sodass effektiv 200 Gbps pro Node (gemessen: 100–111 Gbps pro Rail) erreicht werden. Die Inbetriebnahme umfasste unter anderem Passwordless-SSH, Jumbo Frames und IP-Konfiguration, die per Skript automatisiert wurden – der Aufwand war laut Autor geringer als erwartet, ca. 20 Minuten Update-Zeit pro Node. Kernmotivation ist die maximale Unified-Memory-Kapazität im Nvidia-Ökosystem: Mit 8 Nodes wurde GLM-5.1-NVFP4 (434 GB) bei Tensor-Parallelism=8 bereits live serviert. Mit dem vollständigen 16-Node-Setup sollen nun DeepSeek und Kimi getestet werden. Längerfristig plant der Nutzer einen Prefill/Decode-Split: Der Spark-Cluster übernimmt das speicherintensive Prefill, während 2–4 Mac Studio M5 Ultra (sobald verfügbar) den Decode-Part übernehmen sollen. Das übrige Rack enthält u. a. eine QNAP-NAS mit 374 TB (All-U.2), eine SuperMicro-Station mit 4× H100 NVL sowie eine GH200-Node.

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge