GH200 NVL2 vs. 8× RTX 6000 Blackwell: Welches Setup für Kimi K2.6 / DeepSeek V4?

Warum es zählt

Wer 1-Billionen-Parameter-MoE-Modelle lokal hosten will, stößt an fundamentale VRAM-Grenzen: Auch 288 GB HBM3e des NVL2 reichen nicht, und 8× PCIe-Karten ohne NVLink riskieren Tensor-Parallel-Engpässe – ein reales Trade-off-Problem für Teams mit begrenztem Budget.

— Lumeric Redaktion

Ein fünfköpfiges Entwickler-Team plant, Kimi K2.6 und DeepSeek-V4-Klasse-Modelle selbst zu hosten – vorrangig für agentisches Coding mit langen Kontextfenstern und parallelen Tool-Calls. Das Budget liegt bei 100.000–150.000 USD. Zur Auswahl stehen ein duales GH200 NVL2 (~95k USD, 1,2 TB Unified Memory, davon 288 GB HBM3e) und ein 8× RTX 6000 Pro Blackwell-Build (~140k USD, 768 GB dediziertes VRAM). Erste Tests auf einer einzelnen GH200 mit Kimi K2.6 bei 2-Bit-Quantisierung ergaben ca. 23 Token/s beim Decode – die Prefill-Geschwindigkeit blieb hinter den Erwartungen zurück. Kernproblem: Beide Modelle passen selbst bei Quantisierung nicht vollständig in den HBM, sodass Teile im langsameren Unified Memory des GH200 liegen. Bei der RTX-6000-Option hingegen würde das Modell vollständig in schnellem VRAM Platz finden, allerdings ohne NVLink-Verbindung zwischen den Karten, was Tensor-Parallelismus bei einem ~1-Billion-Parameter-MoE deutlich bremsen könnte. AMD-Instinct-Server wurden als zu teuer oder VRAM-limitiert verworfen. Der Post sucht konkrete Praxiswerte zu Decode- und Prefill-Throughput unter Concurrent-Last auf einer der beiden Plattformen.

Quelle lesenreddit.com

Inferenz Infra Open Source Agents

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

MEINUNG

reddit.com· r/LocalLLaMA1mo

GH200 NVL2 vs. 8× RTX 6000 Blackwell: Welches Setup für Kimi K2.6 / DeepSeek V4?

ToolsNVIDIA Hardware DeepSeek

CompaniesDeepSeek NVIDIA AMD

Warum es zählt

— Lumeric Redaktion

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.