Gemma 4 26B erreicht 600 Tok/s auf einer RTX 5090 mit DFlash Speculative Decoding
Reddit-Nutzer chain-77 hat auf r/LocalLLaMA einen detaillierten Throughput-Vergleich für Gemma 4 26B mit DFlash Speculative Decoding in vLLM veröffentlicht. Als Hardware kam eine RTX 5090 mit 32 GB VRAM zum Einsatz. Das Hauptmodell war cyankiwi/gemma-4-26B-A4B-it-AWQ-4bit (4-Bit-AWQ-Quantisierung), als Draft-Modell diente z-lab/gemma-4-26B-A4B-it-DFlash. Der Workload umfasste 256 Input-Tokens und 1024 Output-Tokens bei Concurrency 1. Getestet wurden num_speculative_tokens-Werte von 0 bis 15. Das Baseline-Ergebnis ohne DFlash lag bei ~228 Tok/s und ~4455 ms E2E-Latenz. Die beste praktische Einstellung (num_speculative_tokens=13, max_num_batched_tokens=8192) erzielte ~578 Tok/s und ~1738 ms Latenz – ein Speedup von 2,56×. Ein interessanter Befund: max_num_batched_tokens=4096 lieferte leicht bessere mittlere Latenz, aber schlechtere p95-Werte; erst 8192 glättet den Tail. Ergebnisse, Skripte und Grafiken sind auf Medium verfügbar, ein Erklärvideo auf YouTube.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Gemma 4 26B erreicht 600 Tok/s auf einer RTX 5090 mit DFlash Speculative Decoding
Reddit-Nutzer chain-77 hat auf r/LocalLLaMA einen detaillierten Throughput-Vergleich für Gemma 4 26B mit DFlash Speculative Decoding in vLLM veröffentlicht. Als Hardware kam eine RTX 5090 mit 32 GB VRAM zum Einsatz. Das Hauptmodell war cyankiwi/gemma-4-26B-A4B-it-AWQ-4bit (4-Bit-AWQ-Quantisierung), als Draft-Modell diente z-lab/gemma-4-26B-A4B-it-DFlash. Der Workload umfasste 256 Input-Tokens und 1024 Output-Tokens bei Concurrency 1. Getestet wurden num_speculative_tokens-Werte von 0 bis 15. Das Baseline-Ergebnis ohne DFlash lag bei ~228 Tok/s und ~4455 ms E2E-Latenz. Die beste praktische Einstellung (num_speculative_tokens=13, max_num_batched_tokens=8192) erzielte ~578 Tok/s und ~1738 ms Latenz – ein Speedup von 2,56×. Ein interessanter Befund: max_num_batched_tokens=4096 lieferte leicht bessere mittlere Latenz, aber schlechtere p95-Werte; erst 8192 glättet den Tail. Ergebnisse, Skripte und Grafiken sind auf Medium verfügbar, ein Erklärvideo auf YouTube.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.