DGX Spark: Praxistest mit Qwen3.6-35B für Agenten-Betrieb

ToolsGPT Qwen NVIDIA Hardware Hugging Face

Warum es zählt

RedHatAI/Qwen3.6-35B-A3B-NVFP4 erreicht mit MTP-Spekulation 139 Aggregate-TPS bei 4 parallelen Streams auf einem DGX Spark – ein konkreter Richtwert für Teams, die openclaw-ähnliche Agenten-Workflows auf Single-Node-Hardware betreiben wollen.

— Lumeric Redaktion

Ein Nutzer aus r/LocalLLaMA dokumentiert seinen Versuch, auf einem NVIDIA DGX Spark einen openclaw-kompatiblen Agenten-Server für mehrere gleichzeitige Nutzer zu betreiben. Der zunächst erprobte Atlas-Stack erwies sich als unbrauchbar: Tool-Calls funktionierten nicht zuverlässig, Qwen3-Coder lief innerhalb von Atlas nicht korrekt, und bei vier parallelen Anfragen brach der Durchsatz von 50 TPS auf 4×16 TPS ein.

Als funktionierende Alternative stellte sich das Modell RedHatAI/Qwen3.6-35B-A3B-NVFP4 unter vLLM heraus. Im Einzelstream werden bei 30.000 Token Kontextlänge und 5.000 Token Output rund 51,55 Aggregate-TPS erreicht (TTFT ~1,09 s). Mit vier parallelen Streams steigt der Gesamtdurchsatz auf 138,56 Aggregate-TPS, wobei jede einzelne Anfrage auf ~36–37 decode-TPS kommt. Die MTP-Draft-Akzeptanzrate liegt bei 77,8 %. Das ebenfalls getestete QuantTrio/Qwen3.6-35B-A3B-AWQ erreicht nur ~60 TPS concurrent und lieferte qualitativ keine zufriedenstellenden Ergebnisse. Die vollständige Docker-/vLLM-Konfiguration (compressed-tensors, fp8_e4m3 KV-Cache, MTP-Spekulation, Prefix-Caching) ist im Post dokumentiert.

Quelle lesenreddit.com

vLLM Throughput – DGX Spark (30k Kontext, 5000 Tokens Out) · Spitzenwert

51.55%

RedHatAI/Qwen3.6-35B-A3B-NVFP4 (1x)

Inferenz Infra Agents Foundation Modelle