KV-Cache-Quant-Benchmark: q5/q6 unterschätzt, q8/q4 überbewertet
Der Reddit-Nutzer „anbeeld" hat 38 KV-Cache-Quantisierungspaare mit drei verschiedenen Qwen-3.6-27B-Konfigurationen (Q5_K_S + 64k, IQ4_XS + 64k, IQ4_XS + 128k) über KL-Divergenz (KLD) systematisch verglichen. Die Tests wurden in einem eigenen Fork namens BeeLlama.cpp durchgeführt, der zusätzliche Quant-Typen wie vanilla TurboQuant, TCQ 3-bit/2-bit und q6_0 unterstützt – allesamt nicht im mainline llama.cpp verfügbar. Kernbefund: q5_0 als K-Cache und q5_1 als V-Cache liefern ein solides Mittelfeld und werden von der Community systematisch unterschätzt. Dagegen schneidet die populäre Kombination q8_0/q4_0 schlechter ab, als ihr Ruf suggeriert – starkes K kompensiert schwaches V nicht vollständig. Für bf16 KV-Cache bei gleichzeitig stark quantisierten Gewichten (Q4/IQ4) sieht der Autor keinen sinnvollen Trade-off, da beide denselben VRAM-Pool beanspruchen. TurboQuant erweist sich nur als Extremkompression nützlich: turbo3_tcq hat eine Nische, turbo4 ist laut Benchmark sowohl langsam als auch qualitativ schwach. Die praktische Empfehlungsleiter reicht von q8_0/q6_0 für High-End bis q4_0/q4_0 als letztes Mittel.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
KV-Cache-Quant-Benchmark: q5/q6 unterschätzt, q8/q4 überbewertet
Der Reddit-Nutzer „anbeeld" hat 38 KV-Cache-Quantisierungspaare mit drei verschiedenen Qwen-3.6-27B-Konfigurationen (Q5_K_S + 64k, IQ4_XS + 64k, IQ4_XS + 128k) über KL-Divergenz (KLD) systematisch verglichen. Die Tests wurden in einem eigenen Fork namens BeeLlama.cpp durchgeführt, der zusätzliche Quant-Typen wie vanilla TurboQuant, TCQ 3-bit/2-bit und q6_0 unterstützt – allesamt nicht im mainline llama.cpp verfügbar. Kernbefund: q5_0 als K-Cache und q5_1 als V-Cache liefern ein solides Mittelfeld und werden von der Community systematisch unterschätzt. Dagegen schneidet die populäre Kombination q8_0/q4_0 schlechter ab, als ihr Ruf suggeriert – starkes K kompensiert schwaches V nicht vollständig. Für bf16 KV-Cache bei gleichzeitig stark quantisierten Gewichten (Q4/IQ4) sieht der Autor keinen sinnvollen Trade-off, da beide denselben VRAM-Pool beanspruchen. TurboQuant erweist sich nur als Extremkompression nützlich: turbo3_tcq hat eine Nische, turbo4 ist laut Benchmark sowohl langsam als auch qualitativ schwach. Die praktische Empfehlungsleiter reicht von q8_0/q6_0 für High-End bis q4_0/q4_0 als letztes Mittel.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.