Qwen3.6 27B FP8 mit 200k-Token-KV-Cache läuft mit 80 TPS auf RTX 5000 PRO

CompaniesNVIDIA

Warum es zählt

Für Entwickler mit Budget um 10k USD bietet dies eine praktische Single-GPU-Lösung für produktives Agentencodieren im Dauerbetrieb, ohne dass Quantisierungsfehler in langen Sessions akkumulieren – eine relevante Alternative zu Edge-Quantisierungen auf 24GB-Karten.

— Lumeric Redaktion

Der Beitrag beschreibt eine produktionsreife Konfiguration für lokales Inferencing mit Qwen3.6 27B auf NVIDIA RTX 5000 PRO (48GB VRAM). Kern der Lösung ist die Kombination aus Qwens offiziellem FP8-Quantisierten Modell mit nicht-quantisiertem BF16-KV-Cache bei maximal 200k Tokens – ein Kompromiss, der die Vorteile von Quantisierung (Speichereffizienz) mit denen von Full-Precision-Speicherung (Stabiliät bei langen Kontexten) verbindet. Der Nutzer __JockY__ nutzt vLLM 0.20.1 mit Blackwell-Hardware-Beschleunigung und Multi-Token-Prediction (MTP=2) und erreicht damit 60–90 Tokens pro Sekunde, was ausreicht für interaktives Coding. Die Konfiguration nutzt Flashinfer-Backend, CUDA Graphs und automatische Tool-Choice-Parsing für Qwen. Kostpunkt für die gesamte Lösung (GPU, RAM, CPU/Mainboard) wird auf etwa 10.000 USD geschätzt. Der Beitrag adressiert ein wiederkehrendes Community-Problem: wie man 27B-Modelle ohne starke Quantisierungs-Artefakte lokal betreibt, wenn die Systemarchitektur agentenbasierte Stabilität über längere Sessions erfordert.

Was wir noch wissen

vLLM 0.20.1 mit Flashinfer-Backend und Blackwell-Hardware-Beschleunigung für FP8-Marlin-Operationen
200k-Token-Kontext bei BF16-KV-Cache ohne Quantisierung der KV-Werte, um Fehlerakumulation zu vermeiden
Multi-Token-Prediction (MTP) mit 2 spekulativen Tokens erreicht 60–90 TPS im Coding-Workload
Qwen3.6-spezifische Features wie Multimodalität, Tool-Choice und Reasoning-Parser vollständig erhalten
RTX 5000 PRO (48GB) + 64GB RAM als empfohlene Hardware-Basis für ~10k USD Gesamtbudget

Quelle lesenreddit.com

Inference Infra Open Source Agents

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

MEINUNG

reddit.com· r/LocalLLaMA3w