RTX 5090 mit Qwen3.5-4B: Nutzer meldet Deckelung bei 250 Token/s in llama.cpp

ToolsLM Studio Qwen NVIDIA Hardware Llama

CompaniesNVIDIA

Warum es zählt

Die Beobachtung deutet auf einen Bottleneck in der Docker/llama.cpp-Konfiguration hin, der unabhängig vom Build-Image auftritt – relevant für alle, die kleine Hilfsmodelle neben einem Hauptmodell auf Consumer-GPUs betreiben wollen.

— Lumeric Redaktion

Der Reddit-Nutzer luckyj betreibt als Hauptmodell Qwen3.6-27B-MTP auf einer RTX 5090 und erzielt dort rund 100 Token/s Decode und 2500 Token/s Prefill. Als ergänzendes Hilfsmodell setzt er Qwen3.5-4B in der Quantisierung Q4_K_S ein – doch selbst wenn dieses als einziges Modell läuft, kommt er nicht über 200–250 Token/s hinaus. Die GPU-Auslastung liegt dabei nur bei rund 50 %, die CPU ist nahezu idle. Der Nutzer hat die Konfiguration in mehreren Umgebungen getestet: eigenem llama.cpp-Build unter Docker Windows sowie dem fertigen Image havenoammo/llama:cuda13-server, jeweils mit identischem Ergebnis. Auch LM Studio zeigt vergleichbare Werte. In der models.ini sind unter anderem Flash Attention, Continuous Batching, KV-Cache in q8_0 sowie parallel=4 aktiv. Der Bottleneck ist bisher nicht lokalisiert; der Post sammelt Community-Hinweise zur Ursache, etwa mögliche Parallelismus- oder Kontextgrößen-Effekte.

Was wir noch wissen

Hauptmodell Qwen3.6-27B-MTP erreicht ~100 Token/s Decode und ~2500 Token/s Prefill auf der RTX 5090.
Qwen3.5-4B wird als Q4_K_S-GGUF mit ctx-size=32000 und parallel=4 betrieben.
KV-Cache auf q8_0, Flash Attention aktiv, batch-size und ubatch-size jeweils 4096.
Gleiche Performance unter eigenem llama.cpp-Build, havenoammo/llama:cuda13-server-Image und LM Studio.
GPU-Auslastung bei ~50 %, CPU nahezu idle – Bottleneck-Ursache noch unklar.

Quelle lesenreddit.com

Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

MEINUNG

reddit.com· r/LocalLLaMA2w