DiffusionGemma 26B A4B: Tuning-Ergebnisse auf RTX 5090
CompaniesHugging Face
Warum es zählt
Durch Absenken der Diffusions-Temperatur (t-max/t-min) lässt sich der Durchsatz bei Q4_K_M auf bis zu 252 tok/s bei 8192 Token Kontext steigern – ein konkreter Tuning-Leitfaden für lokale DiffusionLM-Deployments auf High-End-Consumer-GPUs.
— Lumeric Redaktion
DiffusionGemma 26B A4B Throughput (tok/s, -n 2048, ctx=4096) · Spitzenwert
180%
Q6_K default
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
DiffusionGemma 26B A4B: Tuning-Ergebnisse auf RTX 5090
CompaniesHugging Face
Warum es zählt
Durch Absenken der Diffusions-Temperatur (t-max/t-min) lässt sich der Durchsatz bei Q4_K_M auf bis zu 252 tok/s bei 8192 Token Kontext steigern – ein konkreter Tuning-Leitfaden für lokale DiffusionLM-Deployments auf High-End-Consumer-GPUs.
— Lumeric Redaktion
DiffusionGemma 26B A4B Throughput (tok/s, -n 2048, ctx=4096) · Spitzenwert
180%
Q6_K default
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.