Qwen3.6-35B-A3B-FP8 mit Hermes Agent auf NVIDIA DGX Spark via vLLM

ToolsGPT Qwen NVIDIA Hardware Hugging Face

Warum es zählt

Die Konfiguration zeigt, wie ein 35B-MoE-Modell mit FP8-Quantisierung, spekulativem Decoding und 262k-Token-Kontext auf einer einzelnen DGX-Spark-Einheit für Agentic-Workloads betrieben werden kann.

— Lumeric Redaktion

Der Reddit-Nutzer /u/povedaaqui betreibt das Qwen3.6-35B-A3B-FP8-Modell in Kombination mit dem Hermes-Agent-Framework auf einem einzelnen NVIDIA DGX Spark. Als Inferenz-Backend kommt vLLM mit dem FlashInfer-Attention-Backend zum Einsatz. Die Konfiguration ist auf lange Kontextfenster ausgelegt: --max-model-len ist auf 262.144 Token gesetzt, bei einem KV-Cache in FP8. Spekulatives Decoding wird über die Methode qwen3_next_mtp mit 2 spekulativen Tokens aktiviert. Weitere Details: GPU-Speicherauslastung bei 75 %, Prefix-Caching und Chunked Prefill sind aktiv, automatische Tool-Choice ist aktiviert mit dem qwen3_coder-Parser. Der Performance-Modus ist auf Throughput gestellt, Thinking-Ausgaben bleiben via preserve_thinking erhalten. Das Setup läuft laut Autor stabil, er sucht jedoch Community-Feedback zu Optimierungsmöglichkeiten für Long-Context- und Agentic-Szenarien.

Was wir noch wissen

Modell: Qwen/Qwen3.6-35B-A3B-FP8, betrieben auf einem einzelnen NVIDIA DGX Spark mit tensor-parallel-size 1
Kontextfenster: 262.144 Token, KV-Cache in FP8, max. 4 gleichzeitige Sequenzen
Spekulatives Decoding via qwen3_next_mtp mit 2 spekulativen Tokens
Tool-Calling-Pipeline mit --enable-auto-tool-choice und --tool-call-parser qwen3_coder aktiv
Reasoning-Ausgaben bleiben via --reasoning-parser qwen3 und preserve_thinking erhalten

Quelle lesenreddit.com

Foundation Modelle Inferenz Infra Agents

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6-35B-A3B-FP8 mit Hermes Agent auf NVIDIA DGX Spark via vLLM

ToolsGPT Qwen NVIDIA Hardware Hugging Face

CompaniesOpenAI Hugging Face NVIDIA

Warum es zählt

Die Konfiguration zeigt, wie ein 35B-MoE-Modell mit FP8-Quantisierung, spekulativem Decoding und 262k-Token-Kontext auf einer einzelnen DGX-Spark-Einheit für Agentic-Workloads betrieben werden kann.

— Lumeric Redaktion

Was wir noch wissen

Modell: Qwen/Qwen3.6-35B-A3B-FP8, betrieben auf einem einzelnen NVIDIA DGX Spark mit tensor-parallel-size 1
Kontextfenster: 262.144 Token, KV-Cache in FP8, max. 4 gleichzeitige Sequenzen
Spekulatives Decoding via qwen3_next_mtp mit 2 spekulativen Tokens
Tool-Calling-Pipeline mit --enable-auto-tool-choice und --tool-call-parser qwen3_coder aktiv
Reasoning-Ausgaben bleiben via --reasoning-parser qwen3 und preserve_thinking erhalten

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6-35B-A3B-FP8 mit Hermes Agent auf NVIDIA DGX Spark via vLLM

Frag die KI zum Artikel

Verwandte Beiträge

Qwen3.6-35B-A3B-FP8 mit Hermes Agent auf NVIDIA DGX Spark via vLLM

Frag die KI zum Artikel

Verwandte Beiträge