Qwen3.6 27B: Custom-Quant denkt bis zu 59 % weniger und liefert trotzdem korrekte Antworten

Warum es zählt

Weniger Thinking-Tokens bei gleicher Korrektheit bedeutet geringere KV-Cache-Auslastung und kürzere Latenz – relevant für alle, die Qwen3.6 27B lokal mit llama.cpp und MTP betreiben und den Durchsatz optimieren wollen.

— Lumeric Redaktion

Ein Nutzer auf r/LocalLLaMA hat untersucht, warum das INT8-AutoRound-Quant von Minachist (Qwen3.6-27B-INT8-AutoRound auf HuggingFace) bei persönlichen Rust-und-Bevy-Benchmarks konsistent besseren Code produziert als andere Qwen3.6-27B-Quants. Auffällig war dabei, dass das Modell deutlich weniger Thinking-Tokens verbraucht. Daraufhin hat der Autor das Rezept als GGUF nachgebaut – mit denselben Layern in BF16 (u. a. token_embd, output, attn_qkv, attn_gate, SSM-Layer) und zusätzlich Multi-Token-Prediction (MTP) via llama.cpp. Die finale Dateigröße beträgt 36,2 GiB, verglichen mit 34,9 GiB (UD Q8 K XL) und 28,3 GiB (Q8_0). Bei zwei AIME-Stil-Matheaufgaben (Seed 1337, temp 0,6, top-p 0,95) benötigte das Custom-Quant rund 40 % bzw. 59 % weniger Tokens als UD Q8 K XL und kam dabei schneller zur richtigen Antwort. Der Throughput liegt bei ca. 60 t/s (Custom Q8 mit MTP) gegenüber 66–73 t/s bei den kleineren Quants – der KV-Cache-Vorteil durch weniger Thinking-Tokens gleicht den Speed-Unterschied laut Autor jedoch aus. Ob BF16-Volllast das Verhalten bestätigt, will der Autor noch testen.

Quelle lesenreddit.com

AIME-Style Math (Frage 1: x³−7x²+14x−8=0) · Spitzenwert

9671%

Custom Q8 (BF16-Layer-Quant)

Foundation Modelle Open Source Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6 27B: Custom-Quant denkt bis zu 59 % weniger und liefert trotzdem korrekte Antworten

ToolsClaude Qwen Llama Hugging Face

CompaniesHugging Face

Warum es zählt

— Lumeric Redaktion

AIME-Style Math (Frage 1: x³−7x²+14x−8=0) · Spitzenwert

9671%

Custom Q8 (BF16-Layer-Quant)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6 27B: Custom-Quant denkt bis zu 59 % weniger und liefert trotzdem korrekte Antworten

Frag die KI zum Artikel

Verwandte Beiträge

Qwen3.6 27B: Custom-Quant denkt bis zu 59 % weniger und liefert trotzdem korrekte Antworten

Frag die KI zum Artikel

Verwandte Beiträge