RTX 5090 mit Qwen3.5-4B: Nutzer meldet Deckelung bei 250 Token/s in llama.cpp
Der Reddit-Nutzer luckyj betreibt als Hauptmodell Qwen3.6-27B-MTP auf einer RTX 5090 und erzielt dort rund 100 Token/s Decode und 2500 Token/s Prefill. Als ergänzendes Hilfsmodell setzt er Qwen3.5-4B in der Quantisierung Q4_K_S ein – doch selbst wenn dieses als einziges Modell läuft, kommt er nicht über 200–250 Token/s hinaus. Die GPU-Auslastung liegt dabei nur bei rund 50 %, die CPU ist nahezu idle. Der Nutzer hat die Konfiguration in mehreren Umgebungen getestet: eigenem llama.cpp-Build unter Docker Windows sowie dem fertigen Image havenoammo/llama:cuda13-server, jeweils mit identischem Ergebnis. Auch LM Studio zeigt vergleichbare Werte. In der models.ini sind unter anderem Flash Attention, Continuous Batching, KV-Cache in q8_0 sowie parallel=4 aktiv. Der Bottleneck ist bisher nicht lokalisiert; der Post sammelt Community-Hinweise zur Ursache, etwa mögliche Parallelismus- oder Kontextgrößen-Effekte.
- Hauptmodell Qwen3.6-27B-MTP erreicht ~100 Token/s Decode und ~2500 Token/s Prefill auf der RTX 5090.
- Qwen3.5-4B wird als Q4_K_S-GGUF mit ctx-size=32000 und parallel=4 betrieben.
- KV-Cache auf q8_0, Flash Attention aktiv, batch-size und ubatch-size jeweils 4096.
- Gleiche Performance unter eigenem llama.cpp-Build, havenoammo/llama:cuda13-server-Image und LM Studio.
- GPU-Auslastung bei ~50 %, CPU nahezu idle – Bottleneck-Ursache noch unklar.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
RTX 5090 mit Qwen3.5-4B: Nutzer meldet Deckelung bei 250 Token/s in llama.cpp
Der Reddit-Nutzer luckyj betreibt als Hauptmodell Qwen3.6-27B-MTP auf einer RTX 5090 und erzielt dort rund 100 Token/s Decode und 2500 Token/s Prefill. Als ergänzendes Hilfsmodell setzt er Qwen3.5-4B in der Quantisierung Q4_K_S ein – doch selbst wenn dieses als einziges Modell läuft, kommt er nicht über 200–250 Token/s hinaus. Die GPU-Auslastung liegt dabei nur bei rund 50 %, die CPU ist nahezu idle. Der Nutzer hat die Konfiguration in mehreren Umgebungen getestet: eigenem llama.cpp-Build unter Docker Windows sowie dem fertigen Image havenoammo/llama:cuda13-server, jeweils mit identischem Ergebnis. Auch LM Studio zeigt vergleichbare Werte. In der models.ini sind unter anderem Flash Attention, Continuous Batching, KV-Cache in q8_0 sowie parallel=4 aktiv. Der Bottleneck ist bisher nicht lokalisiert; der Post sammelt Community-Hinweise zur Ursache, etwa mögliche Parallelismus- oder Kontextgrößen-Effekte.
- Hauptmodell Qwen3.6-27B-MTP erreicht ~100 Token/s Decode und ~2500 Token/s Prefill auf der RTX 5090.
- Qwen3.5-4B wird als Q4_K_S-GGUF mit ctx-size=32000 und parallel=4 betrieben.
- KV-Cache auf q8_0, Flash Attention aktiv, batch-size und ubatch-size jeweils 4096.
- Gleiche Performance unter eigenem llama.cpp-Build, havenoammo/llama:cuda13-server-Image und LM Studio.
- GPU-Auslastung bei ~50 %, CPU nahezu idle – Bottleneck-Ursache noch unklar.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.