Qwen3-Coder Quantisierungs-Shootout: UD-Q5_K_M schlägt MXFP4 auf allen Qualitätsmetriken

Warum es zählt

Für Code-Generierung im Alltag liefert UD-Q5_K_M mit einer Mean-KL-Divergenz von 0,0217 deutlich stabilere Ausgaben als MXFP4 (0,0746) – Unsloth's dynamische Präzision zahlt sich bei langen Reasoning-Ketten konkret aus.

— Lumeric Redaktion

Der Community-Nutzer u/alphatrad hat auf r/LocalLLaMA einen systematischen Vergleich von vier Quantisierungsformaten für Qwen3-Coder durchgeführt – motiviert durch die eigene Nutzung von MXFP4_MOE, die bisher aus Geschwindigkeitsgründen bevorzugt wurde. Als Evaluierungsbasis diente der Wikitext-2-Datensatz mit 583 Chunks bei einem Kontext von 512 Tokens. Ein zentrales Argument des Posts ist die exponentielle Fehlerakkumulation bei autoregressiven Modellen: Bei 100 erzeugten Tokens bedeutet ein Unterschied von 89,4 % (MXFP4) gegenüber 94,0 % (UD-Q5_K_M) Top-1-Übereinstimmung rechnerisch eine rund 150-fach höhere Wahrscheinlichkeit für eine vollständig korrekte Sequenz. Der Autor zitiert dabei explizit Yann LeCuns Kritik an der exponentiell wachsenden Fehlerrate von LLMs. Praktisch äußert sich das laut Erfahrungsbericht darin, dass MXFP4 bei langen Refactoring-Aufgaben häufiger „aus dem Ruder läuft". Unsloth's UD-Q5_K_M setzt auf dynamische Präzisionszuweisung, bei der sensible Modellschichten höher quantisiert werden als weniger kritische – das erklärt den Qualitätsvorsprung trotz vergleichbarer Dateigröße. Der Autor hat sein persönliches Default-Format daraufhin von MXFP4_MOE auf UD-Q5_K_M umgestellt, empfiehlt MXFP4 aber weiterhin für prefill-lastige Batch-Workloads.

Was wir noch wissen

Top-1-Übereinstimmung: UD-Q5_K_M 94,0 % vs. MXFP4 89,4 % – bei 100 Tokens entspricht das einer ~150× höheren Wahrscheinlichkeit für perfekte Sequenzübereinstimmung.
Max-KL-Divergenz (schlechtestes Token): UD-Q5_K_M mit 4,75 klar am niedrigsten, MXFP4 mit 13,04 am höchsten – relevanter Indikator für Ausreißer-Tokens.
Dateigrößen im Vergleich: MXFP4 44,7 GB, Q4_K_M 45,2 GB, Q5_K_M 52,9 GB, UD-Q5_K_M 55,2 GB – UD-Q5 ist trotz bester Qualität nur ~10 GB größer als MXFP4.
Decode-Geschwindigkeit: UD-Q5_K_M liegt nur ~9 % hinter Q4_K_M, obwohl die Datei 22 % größer ist – für interaktive Coding-Sessions als vernachlässigbar eingestuft.
MXFP4 profitiert bei Prefill (Batch 512 und 4096) von dedizierten Hardware-Kerneln auf RDNA-GPUs und bleibt dort die schnellste Option.

Quelle lesenreddit.com

Wikitext-2 Top-1 Token Agreement (Qwen3-Coder) · Spitzenwert

89.4%

MXFP4_MOE

Foundation Modelle Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3-Coder Quantisierungs-Shootout: UD-Q5_K_M schlägt MXFP4 auf allen Qualitätsmetriken

ToolsClaude Qwen NVIDIA Hardware Llama

CompaniesNVIDIA Meta AI

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Top-1-Übereinstimmung: UD-Q5_K_M 94,0 % vs. MXFP4 89,4 % – bei 100 Tokens entspricht das einer ~150× höheren Wahrscheinlichkeit für perfekte Sequenzübereinstimmung.
Max-KL-Divergenz (schlechtestes Token): UD-Q5_K_M mit 4,75 klar am niedrigsten, MXFP4 mit 13,04 am höchsten – relevanter Indikator für Ausreißer-Tokens.
Dateigrößen im Vergleich: MXFP4 44,7 GB, Q4_K_M 45,2 GB, Q5_K_M 52,9 GB, UD-Q5_K_M 55,2 GB – UD-Q5 ist trotz bester Qualität nur ~10 GB größer als MXFP4.
Decode-Geschwindigkeit: UD-Q5_K_M liegt nur ~9 % hinter Q4_K_M, obwohl die Datei 22 % größer ist – für interaktive Coding-Sessions als vernachlässigbar eingestuft.
MXFP4 profitiert bei Prefill (Batch 512 und 4096) von dedizierten Hardware-Kerneln auf RDNA-GPUs und bleibt dort die schnellste Option.

Wikitext-2 Top-1 Token Agreement (Qwen3-Coder) · Spitzenwert

89.4%

MXFP4_MOE

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3-Coder Quantisierungs-Shootout: UD-Q5_K_M schlägt MXFP4 auf allen Qualitätsmetriken

Frag die KI zum Artikel

Verwandte Beiträge

Qwen3-Coder Quantisierungs-Shootout: UD-Q5_K_M schlägt MXFP4 auf allen Qualitätsmetriken

Frag die KI zum Artikel

Verwandte Beiträge