DiffusionGemma 26B auf RTX 4090: bis zu 475 t/s, aber mit Einschränkungen

Warum es zählt

Diffusions-LLMs liefern zwar sehr hohe Token-Raten, büßen dabei aber Genauigkeit und Kontextqualität ein. Für Entwickler ist das reguläre Gemma 26B via llama.cpp mit über 300 t/s im Batch derzeit die praktischere Wahl.

— Lumeric Redaktion

Quelle lesenreddit.com

475 t/s

Peak-Durchsatz auf RTX 4090 (AWQ-INT4)

Inferenz Infra Foundation Modelle Evals Benchmarks

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

DiffusionGemma 26B auf RTX 4090: bis zu 475 t/s, aber mit Einschränkungen

ToolsLlama

Warum es zählt

— Lumeric Redaktion

475 t/s

Peak-Durchsatz auf RTX 4090 (AWQ-INT4)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

DiffusionGemma 26B auf RTX 4090: bis zu 475 t/s, aber mit Einschränkungen

Frag die KI zum Artikel

Verwandte Beiträge

DiffusionGemma 26B auf RTX 4090: bis zu 475 t/s, aber mit Einschränkungen

Frag die KI zum Artikel

Verwandte Beiträge