Qwen 3.6 35B mit TurboQuant Plus erreicht 19.4 t/s auf Consumer-Hardware
Ein LocalLLaMA-Nutzer dokumentiert eine vergleichende Inbetriebnahme von Qwen 3.6 35B MoE auf einem MSI Stealth 13v Laptop (i7-13620H, 64 GB RAM). Er testet die Standard-Variante gegen TheTom's TurboQuant_plus-Quantisierung (IQ4_XS) mit unterschiedlichen Konfigurationen: Variante 1 mit 40k Kontext, NGL 99, K-Cache q8_0 und V-Cache q4_0 erreicht ca. 25 t/s einfach und 17 t/s bei schwerem Reasoning, verbraucht 7.0 GB VRAM. Variante 2 mit 196k Kontext, CPU-seitigem MoE (-cmoe) und V-Cache turbo3 erzielt 19–21 t/s bei 6.8 GB VRAM. Im Praxis-Test (Python-Code-Generierung für Bauwesen) absolvierte TurboQuant die Aufgabe um 20 % schneller (4min 35s vs. 5min 41s) mit marginal besserer numerischer Genauigkeit. Der Nutzer fragt nach Optimierungsmöglichkeiten, um näher an die 30–35 t/s heranzukommen, die andere in diesem Setup erreicht haben sollen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Qwen 3.6 35B mit TurboQuant Plus erreicht 19.4 t/s auf Consumer-Hardware
Ein LocalLLaMA-Nutzer dokumentiert eine vergleichende Inbetriebnahme von Qwen 3.6 35B MoE auf einem MSI Stealth 13v Laptop (i7-13620H, 64 GB RAM). Er testet die Standard-Variante gegen TheTom's TurboQuant_plus-Quantisierung (IQ4_XS) mit unterschiedlichen Konfigurationen: Variante 1 mit 40k Kontext, NGL 99, K-Cache q8_0 und V-Cache q4_0 erreicht ca. 25 t/s einfach und 17 t/s bei schwerem Reasoning, verbraucht 7.0 GB VRAM. Variante 2 mit 196k Kontext, CPU-seitigem MoE (-cmoe) und V-Cache turbo3 erzielt 19–21 t/s bei 6.8 GB VRAM. Im Praxis-Test (Python-Code-Generierung für Bauwesen) absolvierte TurboQuant die Aufgabe um 20 % schneller (4min 35s vs. 5min 41s) mit marginal besserer numerischer Genauigkeit. Der Nutzer fragt nach Optimierungsmöglichkeiten, um näher an die 30–35 t/s heranzukommen, die andere in diesem Setup erreicht haben sollen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.