ByteShape: Qwen 3.6 35B GGUF – NTP vs. MTP Quantisierung im Hardware-Vergleich

Warum es zählt

Wer Qwen 3.6 35B lokal betreibt, sollte laut dieser Studie nicht blind kleinere bpw-Quants wählen: Die größte Variante bleibt oft konkurrenzfähig in Qualität und Speed. MTP lohnt sich nur auf GPUs mit ausreichend VRAM-Headroom.

— Lumeric Redaktion

ByteShape hat für das Qwen 3.6 35B Modell GGUF-Quantisierungen in zwei Familien veröffentlicht: standardmäßige NTP-Varianten (Next Token Prediction) und MTP-Varianten (Multi-Token Prediction). Das Benchmarking erstreckte sich über eine breite Hardware-Palette – RTX 4090, 5090, Pro 6000, 4080 und 5060 Ti auf der GPU-Seite sowie Intel i7, Intel Ultra 7, Ryzen 9 und Raspberry Pi 5 auf der CPU-Seite. In die Vergleiche wurden auch populäre Quants von Bartowski, Unsloth, Mudler und AesSedai einbezogen. Das Hauptergebnis bei NTP überraschte: Kleinere bpw-Quants gewannen nicht automatisch in Geschwindigkeit oder Qualität – die größte Variante blieb oft konkurrenzfähig, auch bei Prompt Processing und Token-Generierung. Eine Ausnahme bilden 16-GB-GPUs und der Raspberry Pi 5, für die separate Empfehlungen im Blog hinterlegt sind. MTP lieferte auf GPUs einen spürbaren Generierungsschub von rund 20–40 %, erhöht aber den Speicherbedarf zur Laufzeit, was auf 16-GB-GPUs die Modellauswahl einschränkt. Auf CPUs hingegen verschlechtert MTP das Prompt Processing deutlich, weshalb ByteShape hier weiterhin NTP empfiehlt. MMLU wurde bewusst aus dem Benchmark ausgeschlossen, da Qwen 3.6 bereits im Full-Precision-Betrieb Probleme mit der Antwortformat-Compliance zeigte, was quantisierungsunabhängig zu verzerrten Ergebnissen geführt hätte.

Quelle lesenreddit.com

Foundation Modelle Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

ByteShape: Qwen 3.6 35B GGUF – NTP vs. MTP Quantisierung im Hardware-Vergleich

ToolsQwen

Warum es zählt

— Lumeric Redaktion

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

ByteShape: Qwen 3.6 35B GGUF – NTP vs. MTP Quantisierung im Hardware-Vergleich

Frag die KI zum Artikel

Verwandte Beiträge

ByteShape: Qwen 3.6 35B GGUF – NTP vs. MTP Quantisierung im Hardware-Vergleich

Frag die KI zum Artikel

Verwandte Beiträge