Qwen3.6 27B int4-AutoRound-Quant mit Best-Recipe-Preset veröffentlicht

Warum es zählt

Das „autoround-best"-Preset nutzt mehr Iterationen als Standard-AutoRound und soll dadurch Qualitätsverluste bei int4 reduzieren. Lokale Deployment-Setups profitieren direkt von den veröffentlichten Rezepten und Kalibrierungsdaten auf Hugging Face.

— Lumeric Redaktion

Der Reddit-Nutzer webhie (u/Otherwise-Director17) hat zwei int4-AutoRound-Quantisierungen des Qwen3.6 27B auf Hugging Face veröffentlicht: eine allgemeine Version (webhie/Qwen3.6-27B-int4-AutoRound) sowie eine code-kalibrierte Variante (webhie/Qwen3.6-27B-int4-AutoRound-Code). Beide basieren auf dem „autoround-best"-Preset, das mehr Optimierungsiterationen durchläuft als das Standard-Rezept und damit bei gleicher Bitbreite eine höhere Ausgabequalität erzielen soll. Als Ausgangspunkt diente die bestehende Quantisierung von Lorbus/Qwen3.6-27B-int4-AutoRound. Die gemessene Token-Generierungsrate liegt auf einer RTX 5090 mit vllm zwischen 60 und 80 Token/s ohne MTP und zwischen 130 und 160 Token/s mit MTP-3. Ein bekanntes Problem bei Qwen-3.6-Modellen ist die hohe Empfindlichkeit gegenüber Chat-Template-Änderungen, die zu Loops oder unvollständigen Antworten führen kann. Als Workaround wird das korrigierte Template v11 von froggeric/Qwen-Fixed-Chat-Templates empfohlen, das in der HF-Quantisierung bereits enthalten ist. Rezept und Kalibrierungsdatensatz sind in der Model Card dokumentiert.

Was wir noch wissen

Zwei Varianten: Standard-Quant und code-kalibrierte Quant, beide int4 mit AutoRound-Best-Preset
Token-Rate: 60–80 tps ohne MTP, 130–160 tps mit MTP-3 auf RTX 5090 + vllm
Bekannter Bug: Qwen3.6 reagiert extrem sensibel auf Chat-Template-Änderungen (Loops, Abbrüche)
Workaround: Chat-Template v11 von froggeric/Qwen-Fixed-Chat-Templates ist im HF-Quant bereits enthalten
Rezept und Kalibrierungsdatensatz sind in der Hugging-Face-Model-Card dokumentiert

Quelle lesenreddit.com

60–160 tok/s

Token-Generierung auf RTX 5090 mit vllm

Open Source Inferenz Infra Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6 27B int4-AutoRound-Quant mit Best-Recipe-Preset veröffentlicht

ToolsQwen Hugging Face

CompaniesHugging Face

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Zwei Varianten: Standard-Quant und code-kalibrierte Quant, beide int4 mit AutoRound-Best-Preset
Token-Rate: 60–80 tps ohne MTP, 130–160 tps mit MTP-3 auf RTX 5090 + vllm
Bekannter Bug: Qwen3.6 reagiert extrem sensibel auf Chat-Template-Änderungen (Loops, Abbrüche)
Workaround: Chat-Template v11 von froggeric/Qwen-Fixed-Chat-Templates ist im HF-Quant bereits enthalten
Rezept und Kalibrierungsdatensatz sind in der Hugging-Face-Model-Card dokumentiert

60–160 tok/s

Token-Generierung auf RTX 5090 mit vllm

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6 27B int4-AutoRound-Quant mit Best-Recipe-Preset veröffentlicht

Frag die KI zum Artikel

Verwandte Beiträge

Qwen3.6 27B int4-AutoRound-Quant mit Best-Recipe-Preset veröffentlicht

Frag die KI zum Artikel

Verwandte Beiträge