H100 mit 94 GB VRAM: vLLM oder llama.cpp für 30-User-Inferenz?
Ein r/LocalLLaMA-Nutzer hat vorübergehend Zugang zu einem NVIDIA H100 mit 94 GB VRAM erhalten und möchte darauf einen Inferenz-Endpunkt für bis zu 30 Nutzer betreiben – mit realistisch 10–15 gleichzeitigen Anfragen. Als Modell steht Qwen3.6-27B im Fokus, das vor allem für agentisches Coding über Tools wie Pi und OpenCode eingesetzt werden soll. Gewünscht ist ein großes Kontextfenster von 131.072 bis 262.144 Token. Zur Debatte stehen vLLM und llama.cpp als Serving-Frameworks. Für llama.cpp würden Unsloth-Quants im Format UD-Q6_K_XL oder UD-Q8_K_XL genutzt; für vLLM ist die Quantisierungswahl noch offen. Zusätzlich wird nach geeigneten Benchmarking-Tools für gleichzeitige Nutzerlast gefragt. Der Post ist typisch für die wachsende Praxiserfahrung der Community mit High-End-Consumer- und Enterprise-GPUs im lokalen Betrieb.
- Zielmodell: Qwen3.6-27B, primär für agentisches Coding (Pi, OpenCode)
- Gewünschtes Kontextfenster: 131.072–262.144 Token auf 94 GB VRAM
- Für llama.cpp erwogene Quants: UD-Q6_K_XL und UD-Q8_K_XL von Unsloth
- Realistische Last: 10–15 gleichzeitige Nutzer, Auslegung auf bis zu 30
- Nutzer sucht zusätzlich ein Tool zum Benchmarken von Concurrent-User-Last
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
H100 mit 94 GB VRAM: vLLM oder llama.cpp für 30-User-Inferenz?
Ein r/LocalLLaMA-Nutzer hat vorübergehend Zugang zu einem NVIDIA H100 mit 94 GB VRAM erhalten und möchte darauf einen Inferenz-Endpunkt für bis zu 30 Nutzer betreiben – mit realistisch 10–15 gleichzeitigen Anfragen. Als Modell steht Qwen3.6-27B im Fokus, das vor allem für agentisches Coding über Tools wie Pi und OpenCode eingesetzt werden soll. Gewünscht ist ein großes Kontextfenster von 131.072 bis 262.144 Token. Zur Debatte stehen vLLM und llama.cpp als Serving-Frameworks. Für llama.cpp würden Unsloth-Quants im Format UD-Q6_K_XL oder UD-Q8_K_XL genutzt; für vLLM ist die Quantisierungswahl noch offen. Zusätzlich wird nach geeigneten Benchmarking-Tools für gleichzeitige Nutzerlast gefragt. Der Post ist typisch für die wachsende Praxiserfahrung der Community mit High-End-Consumer- und Enterprise-GPUs im lokalen Betrieb.
- Zielmodell: Qwen3.6-27B, primär für agentisches Coding (Pi, OpenCode)
- Gewünschtes Kontextfenster: 131.072–262.144 Token auf 94 GB VRAM
- Für llama.cpp erwogene Quants: UD-Q6_K_XL und UD-Q8_K_XL von Unsloth
- Realistische Last: 10–15 gleichzeitige Nutzer, Auslegung auf bis zu 30
- Nutzer sucht zusätzlich ein Tool zum Benchmarken von Concurrent-User-Last
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.