Qwen3.6-27B Quantisierungs-Benchmark: KLD- und Top-P-Vergleich
Der Reddit-Nutzer nutzt llama.cpp's llama-perplexity, um Quantisierungen von Qwen3.6-27B gegen die BF16-Basisversion zu messen. Getestet werden Varianten von Unsloth, mradermacher, cHunter789 und Ununnilium – von Q8 bis Q2 – bei einheitlicher Kontextlänge von 8.192 Tokens und q8_0-KV-Cache-Quantisierung. Als Metriken dienen KL-Divergenz (wie stark driftet die Wahrscheinlichkeitsverteilung ab?) und Same-Top-P (wie oft wählt das quantisierte Modell dasselbe Token wie das Basismodell?). Ergebnis: Q6 bis Q8 gelten als nahezu verlustfrei. Im 4-Bit-Bereich schneidet Unsloth am besten ab; IQ4_XS bietet eine gute VRAM-sparende Alternative für 16-GB-Karten, erlaubt jedoch keinen Kontextfenster über 65.000 Token. mradermacher's Q6_K schlägt Unsloth im 6-Bit-Segment mit einem Mean-KLD von 0,027 und 97,0 % Token-Match. Ab Q3_K_XL steigt die Abweichung deutlich: KLD überschreitet 0,1, Token-Übereinstimmung fällt auf 85–90 %. Q2 und ähnliche Low-Bit-Varianten werden nur für Hardware-knappe Szenarien empfohlen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- BENCHMARKreddit.com2w
Qwen3 27B KV-Cache-Quant-Benchmarks: q8/q6/q5/q4, KVarN und TCQ im Vergleich
- MEINUNGreddit.com3w
Community-Vergleich: Qwen3 27B (IQ3) vs. 35B-A3B (Q4) für lokale Nutzung
- MEINUNGreddit.com1w
Inoffizieller Quant-Vergleich für Qwen3.6 mit eigener Auswertung
- BENCHMARKreddit.com3w
Custom-Quant Qwen3.6-27B-Q8-CC schlägt Unsloth UD-Q8_K_XL bei Same-Top-P
Qwen3.6-27B Quantisierungs-Benchmark: KLD- und Top-P-Vergleich
Der Reddit-Nutzer nutzt llama.cpp's llama-perplexity, um Quantisierungen von Qwen3.6-27B gegen die BF16-Basisversion zu messen. Getestet werden Varianten von Unsloth, mradermacher, cHunter789 und Ununnilium – von Q8 bis Q2 – bei einheitlicher Kontextlänge von 8.192 Tokens und q8_0-KV-Cache-Quantisierung. Als Metriken dienen KL-Divergenz (wie stark driftet die Wahrscheinlichkeitsverteilung ab?) und Same-Top-P (wie oft wählt das quantisierte Modell dasselbe Token wie das Basismodell?). Ergebnis: Q6 bis Q8 gelten als nahezu verlustfrei. Im 4-Bit-Bereich schneidet Unsloth am besten ab; IQ4_XS bietet eine gute VRAM-sparende Alternative für 16-GB-Karten, erlaubt jedoch keinen Kontextfenster über 65.000 Token. mradermacher's Q6_K schlägt Unsloth im 6-Bit-Segment mit einem Mean-KLD von 0,027 und 97,0 % Token-Match. Ab Q3_K_XL steigt die Abweichung deutlich: KLD überschreitet 0,1, Token-Übereinstimmung fällt auf 85–90 %. Q2 und ähnliche Low-Bit-Varianten werden nur für Hardware-knappe Szenarien empfohlen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- BENCHMARKreddit.com2w
Qwen3 27B KV-Cache-Quant-Benchmarks: q8/q6/q5/q4, KVarN und TCQ im Vergleich
- MEINUNGreddit.com3w
Community-Vergleich: Qwen3 27B (IQ3) vs. 35B-A3B (Q4) für lokale Nutzung
- MEINUNGreddit.com1w
Inoffizieller Quant-Vergleich für Qwen3.6 mit eigener Auswertung
- BENCHMARKreddit.com3w
Custom-Quant Qwen3.6-27B-Q8-CC schlägt Unsloth UD-Q8_K_XL bei Same-Top-P