ByteShape: Qwen 3.6 35B GGUF – NTP vs. MTP Quantisierung im Hardware-Vergleich
ByteShape hat für das Qwen 3.6 35B Modell GGUF-Quantisierungen in zwei Familien veröffentlicht: standardmäßige NTP-Varianten (Next Token Prediction) und MTP-Varianten (Multi-Token Prediction). Das Benchmarking erstreckte sich über eine breite Hardware-Palette – RTX 4090, 5090, Pro 6000, 4080 und 5060 Ti auf der GPU-Seite sowie Intel i7, Intel Ultra 7, Ryzen 9 und Raspberry Pi 5 auf der CPU-Seite. In die Vergleiche wurden auch populäre Quants von Bartowski, Unsloth, Mudler und AesSedai einbezogen. Das Hauptergebnis bei NTP überraschte: Kleinere bpw-Quants gewannen nicht automatisch in Geschwindigkeit oder Qualität – die größte Variante blieb oft konkurrenzfähig, auch bei Prompt Processing und Token-Generierung. Eine Ausnahme bilden 16-GB-GPUs und der Raspberry Pi 5, für die separate Empfehlungen im Blog hinterlegt sind. MTP lieferte auf GPUs einen spürbaren Generierungsschub von rund 20–40 %, erhöht aber den Speicherbedarf zur Laufzeit, was auf 16-GB-GPUs die Modellauswahl einschränkt. Auf CPUs hingegen verschlechtert MTP das Prompt Processing deutlich, weshalb ByteShape hier weiterhin NTP empfiehlt. MMLU wurde bewusst aus dem Benchmark ausgeschlossen, da Qwen 3.6 bereits im Full-Precision-Betrieb Probleme mit der Antwortformat-Compliance zeigte, was quantisierungsunabhängig zu verzerrten Ergebnissen geführt hätte.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
ByteShape: Qwen 3.6 35B GGUF – NTP vs. MTP Quantisierung im Hardware-Vergleich
ByteShape hat für das Qwen 3.6 35B Modell GGUF-Quantisierungen in zwei Familien veröffentlicht: standardmäßige NTP-Varianten (Next Token Prediction) und MTP-Varianten (Multi-Token Prediction). Das Benchmarking erstreckte sich über eine breite Hardware-Palette – RTX 4090, 5090, Pro 6000, 4080 und 5060 Ti auf der GPU-Seite sowie Intel i7, Intel Ultra 7, Ryzen 9 und Raspberry Pi 5 auf der CPU-Seite. In die Vergleiche wurden auch populäre Quants von Bartowski, Unsloth, Mudler und AesSedai einbezogen. Das Hauptergebnis bei NTP überraschte: Kleinere bpw-Quants gewannen nicht automatisch in Geschwindigkeit oder Qualität – die größte Variante blieb oft konkurrenzfähig, auch bei Prompt Processing und Token-Generierung. Eine Ausnahme bilden 16-GB-GPUs und der Raspberry Pi 5, für die separate Empfehlungen im Blog hinterlegt sind. MTP lieferte auf GPUs einen spürbaren Generierungsschub von rund 20–40 %, erhöht aber den Speicherbedarf zur Laufzeit, was auf 16-GB-GPUs die Modellauswahl einschränkt. Auf CPUs hingegen verschlechtert MTP das Prompt Processing deutlich, weshalb ByteShape hier weiterhin NTP empfiehlt. MMLU wurde bewusst aus dem Benchmark ausgeschlossen, da Qwen 3.6 bereits im Full-Precision-Betrieb Probleme mit der Antwortformat-Compliance zeigte, was quantisierungsunabhängig zu verzerrten Ergebnissen geführt hätte.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.