DiffusionGemma 26B auf RTX 4090: bis zu 475 t/s, aber mit Einschränkungen
ToolsLlama
Warum es zählt
Diffusions-LLMs liefern zwar sehr hohe Token-Raten, büßen dabei aber Genauigkeit und Kontextqualität ein. Für Entwickler ist das reguläre Gemma 26B via llama.cpp mit über 300 t/s im Batch derzeit die praktischere Wahl.
— Lumeric Redaktion
475 t/s
Peak-Durchsatz auf RTX 4090 (AWQ-INT4)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
DiffusionGemma 26B auf RTX 4090: bis zu 475 t/s, aber mit Einschränkungen
ToolsLlama
Warum es zählt
Diffusions-LLMs liefern zwar sehr hohe Token-Raten, büßen dabei aber Genauigkeit und Kontextqualität ein. Für Entwickler ist das reguläre Gemma 26B via llama.cpp mit über 300 t/s im Batch derzeit die praktischere Wahl.
— Lumeric Redaktion
475 t/s
Peak-Durchsatz auf RTX 4090 (AWQ-INT4)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.