Qwen3.6 27B: Custom-Quant denkt bis zu 59 % weniger und liefert trotzdem korrekte Antworten
Ein Nutzer auf r/LocalLLaMA hat untersucht, warum das INT8-AutoRound-Quant von Minachist (Qwen3.6-27B-INT8-AutoRound auf HuggingFace) bei persönlichen Rust-und-Bevy-Benchmarks konsistent besseren Code produziert als andere Qwen3.6-27B-Quants. Auffällig war dabei, dass das Modell deutlich weniger Thinking-Tokens verbraucht. Daraufhin hat der Autor das Rezept als GGUF nachgebaut – mit denselben Layern in BF16 (u. a. token_embd, output, attn_qkv, attn_gate, SSM-Layer) und zusätzlich Multi-Token-Prediction (MTP) via llama.cpp. Die finale Dateigröße beträgt 36,2 GiB, verglichen mit 34,9 GiB (UD Q8 K XL) und 28,3 GiB (Q8_0). Bei zwei AIME-Stil-Matheaufgaben (Seed 1337, temp 0,6, top-p 0,95) benötigte das Custom-Quant rund 40 % bzw. 59 % weniger Tokens als UD Q8 K XL und kam dabei schneller zur richtigen Antwort. Der Throughput liegt bei ca. 60 t/s (Custom Q8 mit MTP) gegenüber 66–73 t/s bei den kleineren Quants – der KV-Cache-Vorteil durch weniger Thinking-Tokens gleicht den Speed-Unterschied laut Autor jedoch aus. Ob BF16-Volllast das Verhalten bestätigt, will der Autor noch testen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com7h
Community-Release: Qwen3.6 27B AutoRound GGUF-Quants auf HuggingFace
- LAUNCHreddit.com0mo
Qwen3.6 27B int4-AutoRound-Quant mit Best-Recipe-Preset veröffentlicht
- BENCHMARKreddit.com2w
KV-Cache-Quant-Benchmark: q5/q6 unterschätzt, q8/q4 überbewertet
- BENCHMARKreddit.com3d
Qwen3 27B KV-Cache-Quant-Benchmarks: q8/q6/q5/q4, KVarN und TCQ im Vergleich
Qwen3.6 27B: Custom-Quant denkt bis zu 59 % weniger und liefert trotzdem korrekte Antworten
Ein Nutzer auf r/LocalLLaMA hat untersucht, warum das INT8-AutoRound-Quant von Minachist (Qwen3.6-27B-INT8-AutoRound auf HuggingFace) bei persönlichen Rust-und-Bevy-Benchmarks konsistent besseren Code produziert als andere Qwen3.6-27B-Quants. Auffällig war dabei, dass das Modell deutlich weniger Thinking-Tokens verbraucht. Daraufhin hat der Autor das Rezept als GGUF nachgebaut – mit denselben Layern in BF16 (u. a. token_embd, output, attn_qkv, attn_gate, SSM-Layer) und zusätzlich Multi-Token-Prediction (MTP) via llama.cpp. Die finale Dateigröße beträgt 36,2 GiB, verglichen mit 34,9 GiB (UD Q8 K XL) und 28,3 GiB (Q8_0). Bei zwei AIME-Stil-Matheaufgaben (Seed 1337, temp 0,6, top-p 0,95) benötigte das Custom-Quant rund 40 % bzw. 59 % weniger Tokens als UD Q8 K XL und kam dabei schneller zur richtigen Antwort. Der Throughput liegt bei ca. 60 t/s (Custom Q8 mit MTP) gegenüber 66–73 t/s bei den kleineren Quants – der KV-Cache-Vorteil durch weniger Thinking-Tokens gleicht den Speed-Unterschied laut Autor jedoch aus. Ob BF16-Volllast das Verhalten bestätigt, will der Autor noch testen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com7h
Community-Release: Qwen3.6 27B AutoRound GGUF-Quants auf HuggingFace
- LAUNCHreddit.com0mo
Qwen3.6 27B int4-AutoRound-Quant mit Best-Recipe-Preset veröffentlicht
- BENCHMARKreddit.com2w
KV-Cache-Quant-Benchmark: q5/q6 unterschätzt, q8/q4 überbewertet
- BENCHMARKreddit.com3d
Qwen3 27B KV-Cache-Quant-Benchmarks: q8/q6/q5/q4, KVarN und TCQ im Vergleich