llama-swap blockiert konkurrierende Anfragen trotz -np 2 an Single-Modell
Der Reddit-Nutzer sickmartian betreibt das Modell Qwen3.6-35B-A3B über llama.cpp mit der Konfiguration -np 2 (2 Parallel-Slots), Split-Mode Row (-sm row) für zwei GPUs sowie einer Kontextgröße von 262.144 Tokens. Direkt über das Web-GUI von llama-server lassen sich zwei gleichzeitige Anfragen problemlos absetzen. Sobald llama-swap als vorgelagerter Proxy eingesetzt wird, wartet der zweite Request jedoch stets auf den Abschluss des ersten. Der Concurrency-Parameter von llama-swap ist standardmäßig auf 0 gesetzt, was intern als 10 behandelt wird — das Problem liegt also nicht an diesem Limit. Bestehende Dokumentation und Issue-Tracker liefern keinen Hinweis auf eine Lösung für den Single-Modell-Fall; die meisten Parallelitäts-Anleitungen beziehen sich auf den Betrieb mehrerer Modell-Instanzen via Matrix-Konfiguration. Der Nutzer möchte bewusst nur eine llama.cpp-Instanz betreiben, da dies bei Mehrgpu-Setups weniger GPU-Speicher verbraucht als zwei getrennte Prozesse.
- Modell: Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf mit mmproj BF16 für multimodale Unterstützung
- GPU-Verteilung via -sm row und -ngl 99 auf zwei GPUs mit -mg 0 als primärem Gerät
- Kontext: 262.144 Tokens, KV-Cache quantisiert auf q8_0 für Keys und Values
- llama-swap-Concurrency-Default: intern 10, schließt diesen Parameter als Ursache aus
- MTP-Spekulativdekodierung aktiv: --spec-type draft-mtp --spec-draft-n-max 2
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
llama-swap blockiert konkurrierende Anfragen trotz -np 2 an Single-Modell
Der Reddit-Nutzer sickmartian betreibt das Modell Qwen3.6-35B-A3B über llama.cpp mit der Konfiguration -np 2 (2 Parallel-Slots), Split-Mode Row (-sm row) für zwei GPUs sowie einer Kontextgröße von 262.144 Tokens. Direkt über das Web-GUI von llama-server lassen sich zwei gleichzeitige Anfragen problemlos absetzen. Sobald llama-swap als vorgelagerter Proxy eingesetzt wird, wartet der zweite Request jedoch stets auf den Abschluss des ersten. Der Concurrency-Parameter von llama-swap ist standardmäßig auf 0 gesetzt, was intern als 10 behandelt wird — das Problem liegt also nicht an diesem Limit. Bestehende Dokumentation und Issue-Tracker liefern keinen Hinweis auf eine Lösung für den Single-Modell-Fall; die meisten Parallelitäts-Anleitungen beziehen sich auf den Betrieb mehrerer Modell-Instanzen via Matrix-Konfiguration. Der Nutzer möchte bewusst nur eine llama.cpp-Instanz betreiben, da dies bei Mehrgpu-Setups weniger GPU-Speicher verbraucht als zwei getrennte Prozesse.
- Modell: Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf mit mmproj BF16 für multimodale Unterstützung
- GPU-Verteilung via -sm row und -ngl 99 auf zwei GPUs mit -mg 0 als primärem Gerät
- Kontext: 262.144 Tokens, KV-Cache quantisiert auf q8_0 für Keys und Values
- llama-swap-Concurrency-Default: intern 10, schließt diesen Parameter als Ursache aus
- MTP-Spekulativdekodierung aktiv: --spec-type draft-mtp --spec-draft-n-max 2
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.