Qwen 3.6 35B mit TurboQuant Plus erreicht 19.4 t/s auf Consumer-Hardware

ToolsOllama LM Studio Claude Claude Code Qwen Llama

Warum es zählt

TurboQuant_plus ermöglicht deutlich längere Kontextfenster (192k statt 40k) bei gleichzeitig besserer Durchsatzperformance auf Mainstream-Laptops, was für praktische Long-Context-Anwendungen ohne dedizierten GPU-Setup relevant ist. Die minimale Qualitätseinbuße (laut Nutzer indistinguishabel) macht aggressive Quantisierung für lokale Inferenz attraktiver.

— Lumeric Redaktion

Ein LocalLLaMA-Nutzer dokumentiert eine vergleichende Inbetriebnahme von Qwen 3.6 35B MoE auf einem MSI Stealth 13v Laptop (i7-13620H, 64 GB RAM). Er testet die Standard-Variante gegen TheTom's TurboQuant_plus-Quantisierung (IQ4_XS) mit unterschiedlichen Konfigurationen: Variante 1 mit 40k Kontext, NGL 99, K-Cache q8_0 und V-Cache q4_0 erreicht ca. 25 t/s einfach und 17 t/s bei schwerem Reasoning, verbraucht 7.0 GB VRAM. Variante 2 mit 196k Kontext, CPU-seitigem MoE (-cmoe) und V-Cache turbo3 erzielt 19–21 t/s bei 6.8 GB VRAM. Im Praxis-Test (Python-Code-Generierung für Bauwesen) absolvierte TurboQuant die Aufgabe um 20 % schneller (4min 35s vs. 5min 41s) mit marginal besserer numerischer Genauigkeit. Der Nutzer fragt nach Optimierungsmöglichkeiten, um näher an die 30–35 t/s heranzukommen, die andere in diesem Setup erreicht haben sollen.

Quelle lesenreddit.com

Token Generation Speed (t/s) · Spitzenwert

17.55%

Qwen 3.6 35B Standard (40k ctx)

Open Source Inferenz Infra Evals Benchmarks

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

MEINUNG

reddit.com· r/LocalLLaMA2mo