Qwen3.6-35B-A3B-FP8 mit Hermes Agent auf NVIDIA DGX Spark via vLLM
Der Reddit-Nutzer /u/povedaaqui betreibt das Qwen3.6-35B-A3B-FP8-Modell in Kombination mit dem Hermes-Agent-Framework auf einem einzelnen NVIDIA DGX Spark. Als Inferenz-Backend kommt vLLM mit dem FlashInfer-Attention-Backend zum Einsatz. Die Konfiguration ist auf lange Kontextfenster ausgelegt: --max-model-len ist auf 262.144 Token gesetzt, bei einem KV-Cache in FP8. Spekulatives Decoding wird über die Methode qwen3_next_mtp mit 2 spekulativen Tokens aktiviert. Weitere Details: GPU-Speicherauslastung bei 75 %, Prefix-Caching und Chunked Prefill sind aktiv, automatische Tool-Choice ist aktiviert mit dem qwen3_coder-Parser. Der Performance-Modus ist auf Throughput gestellt, Thinking-Ausgaben bleiben via preserve_thinking erhalten. Das Setup läuft laut Autor stabil, er sucht jedoch Community-Feedback zu Optimierungsmöglichkeiten für Long-Context- und Agentic-Szenarien.
- Modell: Qwen/Qwen3.6-35B-A3B-FP8, betrieben auf einem einzelnen NVIDIA DGX Spark mit tensor-parallel-size 1
- Kontextfenster: 262.144 Token, KV-Cache in FP8, max. 4 gleichzeitige Sequenzen
- Spekulatives Decoding via qwen3_next_mtp mit 2 spekulativen Tokens
- Tool-Calling-Pipeline mit --enable-auto-tool-choice und --tool-call-parser qwen3_coder aktiv
- Reasoning-Ausgaben bleiben via --reasoning-parser qwen3 und preserve_thinking erhalten
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Qwen3.6-35B-A3B-FP8 mit Hermes Agent auf NVIDIA DGX Spark via vLLM
Der Reddit-Nutzer /u/povedaaqui betreibt das Qwen3.6-35B-A3B-FP8-Modell in Kombination mit dem Hermes-Agent-Framework auf einem einzelnen NVIDIA DGX Spark. Als Inferenz-Backend kommt vLLM mit dem FlashInfer-Attention-Backend zum Einsatz. Die Konfiguration ist auf lange Kontextfenster ausgelegt: --max-model-len ist auf 262.144 Token gesetzt, bei einem KV-Cache in FP8. Spekulatives Decoding wird über die Methode qwen3_next_mtp mit 2 spekulativen Tokens aktiviert. Weitere Details: GPU-Speicherauslastung bei 75 %, Prefix-Caching und Chunked Prefill sind aktiv, automatische Tool-Choice ist aktiviert mit dem qwen3_coder-Parser. Der Performance-Modus ist auf Throughput gestellt, Thinking-Ausgaben bleiben via preserve_thinking erhalten. Das Setup läuft laut Autor stabil, er sucht jedoch Community-Feedback zu Optimierungsmöglichkeiten für Long-Context- und Agentic-Szenarien.
- Modell: Qwen/Qwen3.6-35B-A3B-FP8, betrieben auf einem einzelnen NVIDIA DGX Spark mit tensor-parallel-size 1
- Kontextfenster: 262.144 Token, KV-Cache in FP8, max. 4 gleichzeitige Sequenzen
- Spekulatives Decoding via qwen3_next_mtp mit 2 spekulativen Tokens
- Tool-Calling-Pipeline mit --enable-auto-tool-choice und --tool-call-parser qwen3_coder aktiv
- Reasoning-Ausgaben bleiben via --reasoning-parser qwen3 und preserve_thinking erhalten
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.