RTX 5090 Benchmark: Prompt Processing und Token Generation bei 400–600 W
Der Reddit-Nutzer Opening-Broccoli9190 hat seine RTX 5090 systematisch mit Power-Limits zwischen 400 W und 600 W (in 25-W-Schritten) benchmarkt – inspiriert von einem früheren Post über Stromverbrauchsoptimierung. Als Backend diente llama.cpp in einem Docker-Container mit Flash Attention, Batch 2048 und bis zu 122k Kontext. Getestet wurde Qwen3.6-27B-Uncensored in der Quantisierung Q6_K_P auf einem System mit Threadripper 6970 und 64 GB RAM (2-Kanal). Der Prompt umfasste 30.000 Token (3 × 10k-Kopien eines Reasoning/Math-Benchmarks). Die Token-Generierung wurde nach 2 Minuten gestoppt. Zentrales Ergebnis: Prompt Processing (PP) ist deutlich stärker vom Power-Limit abhängig als Token Generation (TG), die nahezu linear skaliert. Bei 450 W erreicht die 5090 2.273 PP-Token/s gegenüber 2.113 bei der 4090 (+7,6 %) sowie 49,3 vs. 41,0 TG-Token/s (+20,2 %). Das maximale tatsächliche Powerdraw lag bei 592 W trotz gesetztem 600-W-Limit; Spitzen überschreiten das Limit um 10–12 W. Eine kalte Karte ist laut Messung 2–3 % schneller als eine warme.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
RTX 5090 Benchmark: Prompt Processing und Token Generation bei 400–600 W
Der Reddit-Nutzer Opening-Broccoli9190 hat seine RTX 5090 systematisch mit Power-Limits zwischen 400 W und 600 W (in 25-W-Schritten) benchmarkt – inspiriert von einem früheren Post über Stromverbrauchsoptimierung. Als Backend diente llama.cpp in einem Docker-Container mit Flash Attention, Batch 2048 und bis zu 122k Kontext. Getestet wurde Qwen3.6-27B-Uncensored in der Quantisierung Q6_K_P auf einem System mit Threadripper 6970 und 64 GB RAM (2-Kanal). Der Prompt umfasste 30.000 Token (3 × 10k-Kopien eines Reasoning/Math-Benchmarks). Die Token-Generierung wurde nach 2 Minuten gestoppt. Zentrales Ergebnis: Prompt Processing (PP) ist deutlich stärker vom Power-Limit abhängig als Token Generation (TG), die nahezu linear skaliert. Bei 450 W erreicht die 5090 2.273 PP-Token/s gegenüber 2.113 bei der 4090 (+7,6 %) sowie 49,3 vs. 41,0 TG-Token/s (+20,2 %). Das maximale tatsächliche Powerdraw lag bei 592 W trotz gesetztem 600-W-Limit; Spitzen überschreiten das Limit um 10–12 W. Eine kalte Karte ist laut Messung 2–3 % schneller als eine warme.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.