wird geladen

DeepSeek V4 Flash auf DGX Spark: Praxisbericht mit Throughput-Daten · Lumeric

Beitrag

BENCHMARK

reddit.com· r/LocalLLaMA1w

DeepSeek V4 Flash auf DGX Spark: Praxisbericht mit Throughput-Daten

ToolsLM Studio Qwen DeepSeek Llama Hugging Face

CompaniesDeepSeek Hugging Face

Warum es zählt

DeepSeek V4 Flash läuft stabil mit bis zu 1M-Token-KV-Cache auf Consumer-naher MoE-Hardware; die geringen Performance-Einbußen über Kontextfenster hinweg machen das Setup für lokale Batch-Workloads mit hohem Kontext attraktiv.

— Lumeric Redaktion

Ein Entwickler (Reddit-Handle aidendle94) hat DeepSeek V4 Flash erfolgreich auf zwei ASUS GX10 DGX-Spark-Einheiten in Betrieb genommen, die über ConnectX-7-Ports per RoCE in einem Docker-Setup mit Tensor-Parallelismus (TP=2) verbunden sind. Als Inferenz-Backend kommt vLLM in einem gepatchten Fork (local-inference-lab/vllm, Branch dev/unholy-fusion) zum Einsatz – notwendig, um Abstürze und Prefix-Caching-Fehler zu beheben. Das Modell läuft im originalen MXFP8×MXFP4-Format mit rund 148 GB Gewichten. Der KV-Cache fasst bis zu 1M Token, produktiv werden 256K genutzt. Die Prefill-Rate bleibt zwischen 4K und 256K Kontext mit 2050 bzw. 1680 Token/s bemerkenswert stabil; der Decode-Durchsatz (MTP=2) liegt zwischen 37,9 und 49,4 Token/s. Der Gesamtstromverbrauch beträgt ca. 280 Watt unter Volllast. Auf einem privaten Benchmark für High-Context-Retrieval und Reasoning übertrifft V4 Flash nach Angaben des Nutzers die Modelle M2.7 und Stepfun 3.7. Für NVFP4-Varianten erwartet der Nutzer bei ausgereifterer Software-Unterstützung noch bessere Ergebnisse beim Concurrent-Betrieb auf dem Spark.

Quelle lesenreddit.com

Decode Throughput (Token/s, MTP=2, Concurrency=1) · Spitzenwert

49.4%

4K Kontext

Foundation Modelle Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

BENCHMARK

reddit.com· r/LocalLLaMA1w

DeepSeek V4 Flash auf DGX Spark: Praxisbericht mit Throughput-Daten

ToolsLM Studio Qwen DeepSeek Llama Hugging Face

CompaniesDeepSeek Hugging Face

Warum es zählt

DeepSeek V4 Flash läuft stabil mit bis zu 1M-Token-KV-Cache auf Consumer-naher MoE-Hardware; die geringen Performance-Einbußen über Kontextfenster hinweg machen das Setup für lokale Batch-Workloads mit hohem Kontext attraktiv.

— Lumeric Redaktion

Ein Entwickler (Reddit-Handle aidendle94) hat DeepSeek V4 Flash erfolgreich auf zwei ASUS GX10 DGX-Spark-Einheiten in Betrieb genommen, die über ConnectX-7-Ports per RoCE in einem Docker-Setup mit Tensor-Parallelismus (TP=2) verbunden sind. Als Inferenz-Backend kommt vLLM in einem gepatchten Fork (local-inference-lab/vllm, Branch dev/unholy-fusion) zum Einsatz – notwendig, um Abstürze und Prefix-Caching-Fehler zu beheben. Das Modell läuft im originalen MXFP8×MXFP4-Format mit rund 148 GB Gewichten. Der KV-Cache fasst bis zu 1M Token, produktiv werden 256K genutzt. Die Prefill-Rate bleibt zwischen 4K und 256K Kontext mit 2050 bzw. 1680 Token/s bemerkenswert stabil; der Decode-Durchsatz (MTP=2) liegt zwischen 37,9 und 49,4 Token/s. Der Gesamtstromverbrauch beträgt ca. 280 Watt unter Volllast. Auf einem privaten Benchmark für High-Context-Retrieval und Reasoning übertrifft V4 Flash nach Angaben des Nutzers die Modelle M2.7 und Stepfun 3.7. Für NVFP4-Varianten erwartet der Nutzer bei ausgereifterer Software-Unterstützung noch bessere Ergebnisse beim Concurrent-Betrieb auf dem Spark.

Decode Throughput (Token/s, MTP=2, Concurrency=1) · Spitzenwert

49.4%

4K Kontext

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge