llama-swap blockiert konkurrierende Anfragen trotz -np 2 an Single-Modell

Warum es zählt

Wer llama-swap als Proxy vor llama.cpp einsetzt, sollte prüfen, ob der Proxy trotz korrekt gesetztem -np-Flag Anfragen intern sequenziert — das kann Throughput-Optimierungen durch Parallel-Slots zunichte machen.

— Lumeric Redaktion

Der Reddit-Nutzer sickmartian betreibt das Modell Qwen3.6-35B-A3B über llama.cpp mit der Konfiguration -np 2 (2 Parallel-Slots), Split-Mode Row (-sm row) für zwei GPUs sowie einer Kontextgröße von 262.144 Tokens. Direkt über das Web-GUI von llama-server lassen sich zwei gleichzeitige Anfragen problemlos absetzen. Sobald llama-swap als vorgelagerter Proxy eingesetzt wird, wartet der zweite Request jedoch stets auf den Abschluss des ersten. Der Concurrency-Parameter von llama-swap ist standardmäßig auf 0 gesetzt, was intern als 10 behandelt wird — das Problem liegt also nicht an diesem Limit. Bestehende Dokumentation und Issue-Tracker liefern keinen Hinweis auf eine Lösung für den Single-Modell-Fall; die meisten Parallelitäts-Anleitungen beziehen sich auf den Betrieb mehrerer Modell-Instanzen via Matrix-Konfiguration. Der Nutzer möchte bewusst nur eine llama.cpp-Instanz betreiben, da dies bei Mehrgpu-Setups weniger GPU-Speicher verbraucht als zwei getrennte Prozesse.

Was wir noch wissen

Modell: Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf mit mmproj BF16 für multimodale Unterstützung
GPU-Verteilung via -sm row und -ngl 99 auf zwei GPUs mit -mg 0 als primärem Gerät
Kontext: 262.144 Tokens, KV-Cache quantisiert auf q8_0 für Keys und Values
llama-swap-Concurrency-Default: intern 10, schließt diesen Parameter als Ursache aus
MTP-Spekulativdekodierung aktiv: --spec-type draft-mtp --spec-draft-n-max 2

Quelle lesenreddit.com

Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama-swap blockiert konkurrierende Anfragen trotz -np 2 an Single-Modell

ToolsQwen NVIDIA Hardware Llama

CompaniesPerplexity NVIDIA

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Modell: Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf mit mmproj BF16 für multimodale Unterstützung
GPU-Verteilung via -sm row und -ngl 99 auf zwei GPUs mit -mg 0 als primärem Gerät
Kontext: 262.144 Tokens, KV-Cache quantisiert auf q8_0 für Keys und Values
llama-swap-Concurrency-Default: intern 10, schließt diesen Parameter als Ursache aus
MTP-Spekulativdekodierung aktiv: --spec-type draft-mtp --spec-draft-n-max 2

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama-swap blockiert konkurrierende Anfragen trotz -np 2 an Single-Modell

Frag die KI zum Artikel

Verwandte Beiträge

llama-swap blockiert konkurrierende Anfragen trotz -np 2 an Single-Modell

Frag die KI zum Artikel

Verwandte Beiträge