KV-Cache-Quant-Benchmark: q5/q6 unterschätzt, q8/q4 überbewertet

Warum es zählt

Wer lokale LLMs mit langen Kontexten betreibt, kann durch gezielte KV-Quant-Wahl (z. B. q6_0/q5_0 statt bf16 K+V) deutlich VRAM sparen, ohne nennenswerte Qualitätsverluste einzugehen – das erlaubt größere Kontextfenster bei gleicher Hardware.

— Lumeric Redaktion

Der Reddit-Nutzer „anbeeld" hat 38 KV-Cache-Quantisierungspaare mit drei verschiedenen Qwen-3.6-27B-Konfigurationen (Q5_K_S + 64k, IQ4_XS + 64k, IQ4_XS + 128k) über KL-Divergenz (KLD) systematisch verglichen. Die Tests wurden in einem eigenen Fork namens BeeLlama.cpp durchgeführt, der zusätzliche Quant-Typen wie vanilla TurboQuant, TCQ 3-bit/2-bit und q6_0 unterstützt – allesamt nicht im mainline llama.cpp verfügbar. Kernbefund: q5_0 als K-Cache und q5_1 als V-Cache liefern ein solides Mittelfeld und werden von der Community systematisch unterschätzt. Dagegen schneidet die populäre Kombination q8_0/q4_0 schlechter ab, als ihr Ruf suggeriert – starkes K kompensiert schwaches V nicht vollständig. Für bf16 KV-Cache bei gleichzeitig stark quantisierten Gewichten (Q4/IQ4) sieht der Autor keinen sinnvollen Trade-off, da beide denselben VRAM-Pool beanspruchen. TurboQuant erweist sich nur als Extremkompression nützlich: turbo3_tcq hat eine Nische, turbo4 ist laut Benchmark sowohl langsam als auch qualitativ schwach. Die praktische Empfehlungsleiter reicht von q8_0/q6_0 für High-End bis q4_0/q4_0 als letztes Mittel.

Quelle lesenreddit.com

KV-Cache KLD (Mean Precision, Q5_K_S + 64k, Qwen 3.6 27B) · Spitzenwert

100%

bf16 (Baseline)

Inferenz Infra Open Source Evals Benchmarks

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

KV-Cache-Quant-Benchmark: q5/q6 unterschätzt, q8/q4 überbewertet

ToolsQwen Llama

Warum es zählt

— Lumeric Redaktion

KV-Cache KLD (Mean Precision, Q5_K_S + 64k, Qwen 3.6 27B) · Spitzenwert

100%

bf16 (Baseline)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

KV-Cache-Quant-Benchmark: q5/q6 unterschätzt, q8/q4 überbewertet

Frag die KI zum Artikel

Verwandte Beiträge

KV-Cache-Quant-Benchmark: q5/q6 unterschätzt, q8/q4 überbewertet

Frag die KI zum Artikel

Verwandte Beiträge