wird geladen

RTX 5090 Benchmark: Prompt Processing und Token Generation bei 400–600 W · Lumeric

Beitrag

BENCHMARK

reddit.com· r/LocalLLaMA2w

RTX 5090 Benchmark: Prompt Processing und Token Generation bei 400–600 W

ToolsQwen Llama Hugging Face

CompaniesHugging Face

Warum es zählt

Prompt Processing reagiert deutlich sensibler auf das Power-Limit als Token Generation; bei 450 W liefert die 5090 ~7,6 % mehr PP und ~20 % mehr TG als die 4090 – relevant für Nutzer, die lokale Inferenz effizienzoptimiert betreiben wollen.

— Lumeric Redaktion

Der Reddit-Nutzer Opening-Broccoli9190 hat seine RTX 5090 systematisch mit Power-Limits zwischen 400 W und 600 W (in 25-W-Schritten) benchmarkt – inspiriert von einem früheren Post über Stromverbrauchsoptimierung. Als Backend diente llama.cpp in einem Docker-Container mit Flash Attention, Batch 2048 und bis zu 122k Kontext. Getestet wurde Qwen3.6-27B-Uncensored in der Quantisierung Q6_K_P auf einem System mit Threadripper 6970 und 64 GB RAM (2-Kanal). Der Prompt umfasste 30.000 Token (3 × 10k-Kopien eines Reasoning/Math-Benchmarks). Die Token-Generierung wurde nach 2 Minuten gestoppt. Zentrales Ergebnis: Prompt Processing (PP) ist deutlich stärker vom Power-Limit abhängig als Token Generation (TG), die nahezu linear skaliert. Bei 450 W erreicht die 5090 2.273 PP-Token/s gegenüber 2.113 bei der 4090 (+7,6 %) sowie 49,3 vs. 41,0 TG-Token/s (+20,2 %). Das maximale tatsächliche Powerdraw lag bei 592 W trotz gesetztem 600-W-Limit; Spitzen überschreiten das Limit um 10–12 W. Eine kalte Karte ist laut Messung 2–3 % schneller als eine warme.

Quelle lesenreddit.com

llama.cpp PP & TG @ 450 W (Qwen3.6-27B Q6_K_P) · Spitzenwert

2273%

PP RTX 5090

Chips Silizium Inferenz Infra Evals Benchmarks

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

BENCHMARK

reddit.com· r/LocalLLaMA2w

RTX 5090 Benchmark: Prompt Processing und Token Generation bei 400–600 W

ToolsQwen Llama Hugging Face

CompaniesHugging Face

Warum es zählt

Prompt Processing reagiert deutlich sensibler auf das Power-Limit als Token Generation; bei 450 W liefert die 5090 ~7,6 % mehr PP und ~20 % mehr TG als die 4090 – relevant für Nutzer, die lokale Inferenz effizienzoptimiert betreiben wollen.

— Lumeric Redaktion

Der Reddit-Nutzer Opening-Broccoli9190 hat seine RTX 5090 systematisch mit Power-Limits zwischen 400 W und 600 W (in 25-W-Schritten) benchmarkt – inspiriert von einem früheren Post über Stromverbrauchsoptimierung. Als Backend diente llama.cpp in einem Docker-Container mit Flash Attention, Batch 2048 und bis zu 122k Kontext. Getestet wurde Qwen3.6-27B-Uncensored in der Quantisierung Q6_K_P auf einem System mit Threadripper 6970 und 64 GB RAM (2-Kanal). Der Prompt umfasste 30.000 Token (3 × 10k-Kopien eines Reasoning/Math-Benchmarks). Die Token-Generierung wurde nach 2 Minuten gestoppt. Zentrales Ergebnis: Prompt Processing (PP) ist deutlich stärker vom Power-Limit abhängig als Token Generation (TG), die nahezu linear skaliert. Bei 450 W erreicht die 5090 2.273 PP-Token/s gegenüber 2.113 bei der 4090 (+7,6 %) sowie 49,3 vs. 41,0 TG-Token/s (+20,2 %). Das maximale tatsächliche Powerdraw lag bei 592 W trotz gesetztem 600-W-Limit; Spitzen überschreiten das Limit um 10–12 W. Eine kalte Karte ist laut Messung 2–3 % schneller als eine warme.

llama.cpp PP & TG @ 450 W (Qwen3.6-27B Q6_K_P) · Spitzenwert

2273%

PP RTX 5090

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge