Quantisierung und MTP-Akzeptanzraten bei Gemma 4-31B im Vergleich
CompaniesHugging Face
Warum es zählt
Für lokale Inferenz zeigt das Experiment, dass IQ4_XS und IQ3_M nahezu identische Akzeptanzraten wie Q5_K_S liefern – aggressivere Quantisierung kostet kaum Qualität beim Drafting. Größte Speed-up-Gewinne entstehen mit n=2 auf CUDA; Apple Metal profitiert nur marginal von n=1.
— Lumeric Redaktion
MTP Draft Acceptance Rate (n=1) · Spitzenwert
88.5%
Q5_K_S
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Quantisierung und MTP-Akzeptanzraten bei Gemma 4-31B im Vergleich
CompaniesHugging Face
Warum es zählt
Für lokale Inferenz zeigt das Experiment, dass IQ4_XS und IQ3_M nahezu identische Akzeptanzraten wie Q5_K_S liefern – aggressivere Quantisierung kostet kaum Qualität beim Drafting. Größte Speed-up-Gewinne entstehen mit n=2 auf CUDA; Apple Metal profitiert nur marginal von n=1.
— Lumeric Redaktion
MTP Draft Acceptance Rate (n=1) · Spitzenwert
88.5%
Q5_K_S
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.