Praxisbericht: Qwen 3.6 35B + unkomprimierter KV-Cache schlägt 27B Q5
Der Reddit-Nutzer GrungeWerX schildert einen Praxiswechsel, der durch frustrierende Debugging-Sessions mit Subgraphen in Rivet ausgelöst wurde: Stundenlanger Zeitverlust durch kontextbedingte Qualitätsverluste beim 27B-Modell führte ihn dazu, Qwen 3.6 35B IQ4NXL erstmals ernsthaft zu testen. Das Ergebnis überraschte ihn: Das 35B-Modell löste das Problem nahezu im ersten Versuch, während das 27B Q5KXL bei hohem Kontext zunehmend „lobotomisiert" wirkte – ein Begriff, den er für den spürbaren Intelligenzabfall bei voller Kontextauslastung verwendet. Als entscheidende Variable identifiziert er nicht primär die Modellgröße, sondern die KV-Cache-Quantisierung: Das 35B lief ohne KV-Cache-Kompression, während das 27B mit KV Q8/8 betrieben wurde – und bei noch stärkerer Kompression (KV Q4/4) verschlechtert sich die Qualität weiter merklich. Die Hardware-Basis ist eine RTX 3090 Ti, die für das 35B-Modell bei niedrigerem Quant gerade ausreicht. Am Ende langer Sessions muss er dennoch auf den Q4KXL mit KV Q4/4 wechseln, weil das 35B bei sehr hohem Kontext ebenfalls verlangsamt – mit dem Risiko, dass das Modell Routinen vergisst oder Sitzungsdetails in der Zusammenfassung verliert. Parallel dazu beschreibt er einen Tool-Wechsel von LM Studio zu llama.cpp, nachdem LM Studio einen Bug aufwies, der Context-Overflow und automatisches Context-Compaction verhinderte.
- Unsloth Q5KXL UD war das täglich genutzte 27B-Setup; der KV-Cache lief auf Q8/8 — damit war es bis zu diesem Projekt der bevorzugte Daily Driver.
- Bei Kontext-Overflow erzwang LM Studio manuelle Session-Neustarts inklusive erneutem Einlesen aller Notizen durch den Agenten — ein Bug, der den Wechsel zu llama.cpp auslöste.
- Den Wechsel zu llama.cpp führte der Nutzer nicht selbst durch: Er ließ seinen Agenten llama.cpp kompilieren und einrichten.
- Am Ende langer Sitzungen muss er auf Qwen 3.6 35B Q4KXL mit KV Q4/4 umsteigen, weil das IQ4NXL bei hohem Kontext zu langsam wird — dabei riskiert er, dass das Modell Routinen auslässt.
- Der Nutzer plant, das 27B-Modell ebenfalls ohne KV-Cache-Quantisierung zu testen, hat dies aber noch nicht getan, weil er dort auf Geschwindigkeit angewiesen ist.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Praxisbericht: Qwen 3.6 35B + unkomprimierter KV-Cache schlägt 27B Q5
Der Reddit-Nutzer GrungeWerX schildert einen Praxiswechsel, der durch frustrierende Debugging-Sessions mit Subgraphen in Rivet ausgelöst wurde: Stundenlanger Zeitverlust durch kontextbedingte Qualitätsverluste beim 27B-Modell führte ihn dazu, Qwen 3.6 35B IQ4NXL erstmals ernsthaft zu testen. Das Ergebnis überraschte ihn: Das 35B-Modell löste das Problem nahezu im ersten Versuch, während das 27B Q5KXL bei hohem Kontext zunehmend „lobotomisiert" wirkte – ein Begriff, den er für den spürbaren Intelligenzabfall bei voller Kontextauslastung verwendet. Als entscheidende Variable identifiziert er nicht primär die Modellgröße, sondern die KV-Cache-Quantisierung: Das 35B lief ohne KV-Cache-Kompression, während das 27B mit KV Q8/8 betrieben wurde – und bei noch stärkerer Kompression (KV Q4/4) verschlechtert sich die Qualität weiter merklich. Die Hardware-Basis ist eine RTX 3090 Ti, die für das 35B-Modell bei niedrigerem Quant gerade ausreicht. Am Ende langer Sessions muss er dennoch auf den Q4KXL mit KV Q4/4 wechseln, weil das 35B bei sehr hohem Kontext ebenfalls verlangsamt – mit dem Risiko, dass das Modell Routinen vergisst oder Sitzungsdetails in der Zusammenfassung verliert. Parallel dazu beschreibt er einen Tool-Wechsel von LM Studio zu llama.cpp, nachdem LM Studio einen Bug aufwies, der Context-Overflow und automatisches Context-Compaction verhinderte.
- Unsloth Q5KXL UD war das täglich genutzte 27B-Setup; der KV-Cache lief auf Q8/8 — damit war es bis zu diesem Projekt der bevorzugte Daily Driver.
- Bei Kontext-Overflow erzwang LM Studio manuelle Session-Neustarts inklusive erneutem Einlesen aller Notizen durch den Agenten — ein Bug, der den Wechsel zu llama.cpp auslöste.
- Den Wechsel zu llama.cpp führte der Nutzer nicht selbst durch: Er ließ seinen Agenten llama.cpp kompilieren und einrichten.
- Am Ende langer Sitzungen muss er auf Qwen 3.6 35B Q4KXL mit KV Q4/4 umsteigen, weil das IQ4NXL bei hohem Kontext zu langsam wird — dabei riskiert er, dass das Modell Routinen auslässt.
- Der Nutzer plant, das 27B-Modell ebenfalls ohne KV-Cache-Quantisierung zu testen, hat dies aber noch nicht getan, weil er dort auf Geschwindigkeit angewiesen ist.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.