Qwen3.6-27B Quantisierungs-Benchmark: KLD- und Top-P-Vergleich

Warum es zählt

Wer Qwen3.6-27B lokal auf VRAM-begrenzter Hardware betreibt, erhält konkrete Empfehlungen: IQ4_XS spart VRAM bei akzeptabler Qualität, Q3 und tiefer zeigen deutliche Qualitätseinbußen (KLD > 0,1).

— Lumeric Redaktion

Der Reddit-Nutzer nutzt llama.cpp's llama-perplexity, um Quantisierungen von Qwen3.6-27B gegen die BF16-Basisversion zu messen. Getestet werden Varianten von Unsloth, mradermacher, cHunter789 und Ununnilium – von Q8 bis Q2 – bei einheitlicher Kontextlänge von 8.192 Tokens und q8_0-KV-Cache-Quantisierung. Als Metriken dienen KL-Divergenz (wie stark driftet die Wahrscheinlichkeitsverteilung ab?) und Same-Top-P (wie oft wählt das quantisierte Modell dasselbe Token wie das Basismodell?). Ergebnis: Q6 bis Q8 gelten als nahezu verlustfrei. Im 4-Bit-Bereich schneidet Unsloth am besten ab; IQ4_XS bietet eine gute VRAM-sparende Alternative für 16-GB-Karten, erlaubt jedoch keinen Kontextfenster über 65.000 Token. mradermacher's Q6_K schlägt Unsloth im 6-Bit-Segment mit einem Mean-KLD von 0,027 und 97,0 % Token-Match. Ab Q3_K_XL steigt die Abweichung deutlich: KLD überschreitet 0,1, Token-Übereinstimmung fällt auf 85–90 %. Q2 und ähnliche Low-Bit-Varianten werden nur für Hardware-knappe Szenarien empfohlen.

Quelle lesenreddit.com

KL-Divergenz (Mean KLD) – Qwen3.6-27B Quants · Spitzenwert

0.027%

mradermacher Q6_K

Evals Benchmarks Open Source Inferenz Infra