Praxisbericht: Qwen 3.6 35B + unkomprimierter KV-Cache schlägt 27B Q5

Warum es zählt

Für lokale Agenten-Setups zeigt der Bericht, dass KV-Cache-Quantisierung (Q4/4 vs. unquantisiert) messbare Qualitätsverluste bei hohem Kontext verursacht. Wer auf einer RTX 3090 Ti agentic Workflows betreibt, sollte KV-Cache-Präzision als kritische Variable einplanen.

— Lumeric Redaktion

Der Reddit-Nutzer GrungeWerX schildert einen Praxiswechsel, der durch frustrierende Debugging-Sessions mit Subgraphen in Rivet ausgelöst wurde: Stundenlanger Zeitverlust durch kontextbedingte Qualitätsverluste beim 27B-Modell führte ihn dazu, Qwen 3.6 35B IQ4NXL erstmals ernsthaft zu testen. Das Ergebnis überraschte ihn: Das 35B-Modell löste das Problem nahezu im ersten Versuch, während das 27B Q5KXL bei hohem Kontext zunehmend „lobotomisiert" wirkte – ein Begriff, den er für den spürbaren Intelligenzabfall bei voller Kontextauslastung verwendet. Als entscheidende Variable identifiziert er nicht primär die Modellgröße, sondern die KV-Cache-Quantisierung: Das 35B lief ohne KV-Cache-Kompression, während das 27B mit KV Q8/8 betrieben wurde – und bei noch stärkerer Kompression (KV Q4/4) verschlechtert sich die Qualität weiter merklich. Die Hardware-Basis ist eine RTX 3090 Ti, die für das 35B-Modell bei niedrigerem Quant gerade ausreicht. Am Ende langer Sessions muss er dennoch auf den Q4KXL mit KV Q4/4 wechseln, weil das 35B bei sehr hohem Kontext ebenfalls verlangsamt – mit dem Risiko, dass das Modell Routinen vergisst oder Sitzungsdetails in der Zusammenfassung verliert. Parallel dazu beschreibt er einen Tool-Wechsel von LM Studio zu llama.cpp, nachdem LM Studio einen Bug aufwies, der Context-Overflow und automatisches Context-Compaction verhinderte.

Was wir noch wissen

Unsloth Q5KXL UD war das täglich genutzte 27B-Setup; der KV-Cache lief auf Q8/8 — damit war es bis zu diesem Projekt der bevorzugte Daily Driver.
Bei Kontext-Overflow erzwang LM Studio manuelle Session-Neustarts inklusive erneutem Einlesen aller Notizen durch den Agenten — ein Bug, der den Wechsel zu llama.cpp auslöste.
Den Wechsel zu llama.cpp führte der Nutzer nicht selbst durch: Er ließ seinen Agenten llama.cpp kompilieren und einrichten.
Am Ende langer Sitzungen muss er auf Qwen 3.6 35B Q4KXL mit KV Q4/4 umsteigen, weil das IQ4NXL bei hohem Kontext zu langsam wird — dabei riskiert er, dass das Modell Routinen auslässt.
Der Nutzer plant, das 27B-Modell ebenfalls ohne KV-Cache-Quantisierung zu testen, hat dies aber noch nicht getan, weil er dort auf Geschwindigkeit angewiesen ist.

Quelle lesenreddit.com

Open Source Agents Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Praxisbericht: Qwen 3.6 35B + unkomprimierter KV-Cache schlägt 27B Q5

ToolsLM Studio Qwen Llama

CompaniesMeta AI

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Unsloth Q5KXL UD war das täglich genutzte 27B-Setup; der KV-Cache lief auf Q8/8 — damit war es bis zu diesem Projekt der bevorzugte Daily Driver.
Bei Kontext-Overflow erzwang LM Studio manuelle Session-Neustarts inklusive erneutem Einlesen aller Notizen durch den Agenten — ein Bug, der den Wechsel zu llama.cpp auslöste.
Den Wechsel zu llama.cpp führte der Nutzer nicht selbst durch: Er ließ seinen Agenten llama.cpp kompilieren und einrichten.
Am Ende langer Sitzungen muss er auf Qwen 3.6 35B Q4KXL mit KV Q4/4 umsteigen, weil das IQ4NXL bei hohem Kontext zu langsam wird — dabei riskiert er, dass das Modell Routinen auslässt.
Der Nutzer plant, das 27B-Modell ebenfalls ohne KV-Cache-Quantisierung zu testen, hat dies aber noch nicht getan, weil er dort auf Geschwindigkeit angewiesen ist.

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Praxisbericht: Qwen 3.6 35B + unkomprimierter KV-Cache schlägt 27B Q5

Frag die KI zum Artikel

Verwandte Beiträge

Praxisbericht: Qwen 3.6 35B + unkomprimierter KV-Cache schlägt 27B Q5

Frag die KI zum Artikel

Verwandte Beiträge