Gemma 4 26B erreicht 600 Tok/s auf einer RTX 5090 mit DFlash Speculative Decoding

Warum es zählt

Wer Gemma 4 26B lokal betreibt, kann mit num_speculative_tokens=13 und max_num_batched_tokens=8192 die Latenz von ~4455 ms auf ~1738 ms mehr als halbieren – ohne Hardware-Upgrade.

— Lumeric Redaktion

Reddit-Nutzer chain-77 hat auf r/LocalLLaMA einen detaillierten Throughput-Vergleich für Gemma 4 26B mit DFlash Speculative Decoding in vLLM veröffentlicht. Als Hardware kam eine RTX 5090 mit 32 GB VRAM zum Einsatz. Das Hauptmodell war cyankiwi/gemma-4-26B-A4B-it-AWQ-4bit (4-Bit-AWQ-Quantisierung), als Draft-Modell diente z-lab/gemma-4-26B-A4B-it-DFlash. Der Workload umfasste 256 Input-Tokens und 1024 Output-Tokens bei Concurrency 1. Getestet wurden num_speculative_tokens-Werte von 0 bis 15. Das Baseline-Ergebnis ohne DFlash lag bei ~228 Tok/s und ~4455 ms E2E-Latenz. Die beste praktische Einstellung (num_speculative_tokens=13, max_num_batched_tokens=8192) erzielte ~578 Tok/s und ~1738 ms Latenz – ein Speedup von 2,56×. Ein interessanter Befund: max_num_batched_tokens=4096 lieferte leicht bessere mittlere Latenz, aber schlechtere p95-Werte; erst 8192 glättet den Tail. Ergebnisse, Skripte und Grafiken sind auf Medium verfügbar, ein Erklärvideo auf YouTube.

Quelle lesenreddit.com

DFlash Speculative Decoding Throughput (Gemma 4 26B, RTX 5090) · Spitzenwert

228%

Ohne DFlash (Baseline)

Inferenz Infra Open Source Evals Benchmarks

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Gemma 4 26B erreicht 600 Tok/s auf einer RTX 5090 mit DFlash Speculative Decoding

ToolsQwen

Warum es zählt

Wer Gemma 4 26B lokal betreibt, kann mit num_speculative_tokens=13 und max_num_batched_tokens=8192 die Latenz von ~4455 ms auf ~1738 ms mehr als halbieren – ohne Hardware-Upgrade.

— Lumeric Redaktion

DFlash Speculative Decoding Throughput (Gemma 4 26B, RTX 5090) · Spitzenwert

228%

Ohne DFlash (Baseline)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Gemma 4 26B erreicht 600 Tok/s auf einer RTX 5090 mit DFlash Speculative Decoding

Frag die KI zum Artikel

Verwandte Beiträge

Gemma 4 26B erreicht 600 Tok/s auf einer RTX 5090 mit DFlash Speculative Decoding

Frag die KI zum Artikel

Verwandte Beiträge