Qwen3.6 27B int4-AutoRound-Quant mit Best-Recipe-Preset veröffentlicht
Der Reddit-Nutzer webhie (u/Otherwise-Director17) hat zwei int4-AutoRound-Quantisierungen des Qwen3.6 27B auf Hugging Face veröffentlicht: eine allgemeine Version (webhie/Qwen3.6-27B-int4-AutoRound) sowie eine code-kalibrierte Variante (webhie/Qwen3.6-27B-int4-AutoRound-Code). Beide basieren auf dem „autoround-best"-Preset, das mehr Optimierungsiterationen durchläuft als das Standard-Rezept und damit bei gleicher Bitbreite eine höhere Ausgabequalität erzielen soll. Als Ausgangspunkt diente die bestehende Quantisierung von Lorbus/Qwen3.6-27B-int4-AutoRound. Die gemessene Token-Generierungsrate liegt auf einer RTX 5090 mit vllm zwischen 60 und 80 Token/s ohne MTP und zwischen 130 und 160 Token/s mit MTP-3. Ein bekanntes Problem bei Qwen-3.6-Modellen ist die hohe Empfindlichkeit gegenüber Chat-Template-Änderungen, die zu Loops oder unvollständigen Antworten führen kann. Als Workaround wird das korrigierte Template v11 von froggeric/Qwen-Fixed-Chat-Templates empfohlen, das in der HF-Quantisierung bereits enthalten ist. Rezept und Kalibrierungsdatensatz sind in der Model Card dokumentiert.
- Zwei Varianten: Standard-Quant und code-kalibrierte Quant, beide int4 mit AutoRound-Best-Preset
- Token-Rate: 60–80 tps ohne MTP, 130–160 tps mit MTP-3 auf RTX 5090 + vllm
- Bekannter Bug: Qwen3.6 reagiert extrem sensibel auf Chat-Template-Änderungen (Loops, Abbrüche)
- Workaround: Chat-Template v11 von froggeric/Qwen-Fixed-Chat-Templates ist im HF-Quant bereits enthalten
- Rezept und Kalibrierungsdatensatz sind in der Hugging-Face-Model-Card dokumentiert
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Qwen3.6 27B int4-AutoRound-Quant mit Best-Recipe-Preset veröffentlicht
Der Reddit-Nutzer webhie (u/Otherwise-Director17) hat zwei int4-AutoRound-Quantisierungen des Qwen3.6 27B auf Hugging Face veröffentlicht: eine allgemeine Version (webhie/Qwen3.6-27B-int4-AutoRound) sowie eine code-kalibrierte Variante (webhie/Qwen3.6-27B-int4-AutoRound-Code). Beide basieren auf dem „autoround-best"-Preset, das mehr Optimierungsiterationen durchläuft als das Standard-Rezept und damit bei gleicher Bitbreite eine höhere Ausgabequalität erzielen soll. Als Ausgangspunkt diente die bestehende Quantisierung von Lorbus/Qwen3.6-27B-int4-AutoRound. Die gemessene Token-Generierungsrate liegt auf einer RTX 5090 mit vllm zwischen 60 und 80 Token/s ohne MTP und zwischen 130 und 160 Token/s mit MTP-3. Ein bekanntes Problem bei Qwen-3.6-Modellen ist die hohe Empfindlichkeit gegenüber Chat-Template-Änderungen, die zu Loops oder unvollständigen Antworten führen kann. Als Workaround wird das korrigierte Template v11 von froggeric/Qwen-Fixed-Chat-Templates empfohlen, das in der HF-Quantisierung bereits enthalten ist. Rezept und Kalibrierungsdatensatz sind in der Model Card dokumentiert.
- Zwei Varianten: Standard-Quant und code-kalibrierte Quant, beide int4 mit AutoRound-Best-Preset
- Token-Rate: 60–80 tps ohne MTP, 130–160 tps mit MTP-3 auf RTX 5090 + vllm
- Bekannter Bug: Qwen3.6 reagiert extrem sensibel auf Chat-Template-Änderungen (Loops, Abbrüche)
- Workaround: Chat-Template v11 von froggeric/Qwen-Fixed-Chat-Templates ist im HF-Quant bereits enthalten
- Rezept und Kalibrierungsdatensatz sind in der Hugging-Face-Model-Card dokumentiert
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.