DGX Spark: Praxistest mit Qwen3.6-35B für Agenten-Betrieb
Ein Nutzer aus r/LocalLLaMA dokumentiert seinen Versuch, auf einem NVIDIA DGX Spark einen openclaw-kompatiblen Agenten-Server für mehrere gleichzeitige Nutzer zu betreiben. Der zunächst erprobte Atlas-Stack erwies sich als unbrauchbar: Tool-Calls funktionierten nicht zuverlässig, Qwen3-Coder lief innerhalb von Atlas nicht korrekt, und bei vier parallelen Anfragen brach der Durchsatz von 50 TPS auf 4×16 TPS ein.
Als funktionierende Alternative stellte sich das Modell RedHatAI/Qwen3.6-35B-A3B-NVFP4 unter vLLM heraus. Im Einzelstream werden bei 30.000 Token Kontextlänge und 5.000 Token Output rund 51,55 Aggregate-TPS erreicht (TTFT ~1,09 s). Mit vier parallelen Streams steigt der Gesamtdurchsatz auf 138,56 Aggregate-TPS, wobei jede einzelne Anfrage auf ~36–37 decode-TPS kommt. Die MTP-Draft-Akzeptanzrate liegt bei 77,8 %. Das ebenfalls getestete QuantTrio/Qwen3.6-35B-A3B-AWQ erreicht nur ~60 TPS concurrent und lieferte qualitativ keine zufriedenstellenden Ergebnisse. Die vollständige Docker-/vLLM-Konfiguration (compressed-tensors, fp8_e4m3 KV-Cache, MTP-Spekulation, Prefix-Caching) ist im Post dokumentiert.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
DGX Spark: Praxistest mit Qwen3.6-35B für Agenten-Betrieb
Ein Nutzer aus r/LocalLLaMA dokumentiert seinen Versuch, auf einem NVIDIA DGX Spark einen openclaw-kompatiblen Agenten-Server für mehrere gleichzeitige Nutzer zu betreiben. Der zunächst erprobte Atlas-Stack erwies sich als unbrauchbar: Tool-Calls funktionierten nicht zuverlässig, Qwen3-Coder lief innerhalb von Atlas nicht korrekt, und bei vier parallelen Anfragen brach der Durchsatz von 50 TPS auf 4×16 TPS ein.
Als funktionierende Alternative stellte sich das Modell RedHatAI/Qwen3.6-35B-A3B-NVFP4 unter vLLM heraus. Im Einzelstream werden bei 30.000 Token Kontextlänge und 5.000 Token Output rund 51,55 Aggregate-TPS erreicht (TTFT ~1,09 s). Mit vier parallelen Streams steigt der Gesamtdurchsatz auf 138,56 Aggregate-TPS, wobei jede einzelne Anfrage auf ~36–37 decode-TPS kommt. Die MTP-Draft-Akzeptanzrate liegt bei 77,8 %. Das ebenfalls getestete QuantTrio/Qwen3.6-35B-A3B-AWQ erreicht nur ~60 TPS concurrent und lieferte qualitativ keine zufriedenstellenden Ergebnisse. Die vollständige Docker-/vLLM-Konfiguration (compressed-tensors, fp8_e4m3 KV-Cache, MTP-Spekulation, Prefix-Caching) ist im Post dokumentiert.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.