DeepSeek V4 Flash auf DGX Spark: Praxisbericht mit Throughput-Daten
Ein Entwickler (Reddit-Handle aidendle94) hat DeepSeek V4 Flash erfolgreich auf zwei ASUS GX10 DGX-Spark-Einheiten in Betrieb genommen, die über ConnectX-7-Ports per RoCE in einem Docker-Setup mit Tensor-Parallelismus (TP=2) verbunden sind. Als Inferenz-Backend kommt vLLM in einem gepatchten Fork (local-inference-lab/vllm, Branch dev/unholy-fusion) zum Einsatz – notwendig, um Abstürze und Prefix-Caching-Fehler zu beheben. Das Modell läuft im originalen MXFP8×MXFP4-Format mit rund 148 GB Gewichten. Der KV-Cache fasst bis zu 1M Token, produktiv werden 256K genutzt. Die Prefill-Rate bleibt zwischen 4K und 256K Kontext mit 2050 bzw. 1680 Token/s bemerkenswert stabil; der Decode-Durchsatz (MTP=2) liegt zwischen 37,9 und 49,4 Token/s. Der Gesamtstromverbrauch beträgt ca. 280 Watt unter Volllast. Auf einem privaten Benchmark für High-Context-Retrieval und Reasoning übertrifft V4 Flash nach Angaben des Nutzers die Modelle M2.7 und Stepfun 3.7. Für NVFP4-Varianten erwartet der Nutzer bei ausgereifterer Software-Unterstützung noch bessere Ergebnisse beim Concurrent-Betrieb auf dem Spark.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
DeepSeek V4 Flash auf DGX Spark: Praxisbericht mit Throughput-Daten
Ein Entwickler (Reddit-Handle aidendle94) hat DeepSeek V4 Flash erfolgreich auf zwei ASUS GX10 DGX-Spark-Einheiten in Betrieb genommen, die über ConnectX-7-Ports per RoCE in einem Docker-Setup mit Tensor-Parallelismus (TP=2) verbunden sind. Als Inferenz-Backend kommt vLLM in einem gepatchten Fork (local-inference-lab/vllm, Branch dev/unholy-fusion) zum Einsatz – notwendig, um Abstürze und Prefix-Caching-Fehler zu beheben. Das Modell läuft im originalen MXFP8×MXFP4-Format mit rund 148 GB Gewichten. Der KV-Cache fasst bis zu 1M Token, produktiv werden 256K genutzt. Die Prefill-Rate bleibt zwischen 4K und 256K Kontext mit 2050 bzw. 1680 Token/s bemerkenswert stabil; der Decode-Durchsatz (MTP=2) liegt zwischen 37,9 und 49,4 Token/s. Der Gesamtstromverbrauch beträgt ca. 280 Watt unter Volllast. Auf einem privaten Benchmark für High-Context-Retrieval und Reasoning übertrifft V4 Flash nach Angaben des Nutzers die Modelle M2.7 und Stepfun 3.7. Für NVFP4-Varianten erwartet der Nutzer bei ausgereifterer Software-Unterstützung noch bessere Ergebnisse beim Concurrent-Betrieb auf dem Spark.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.