llama.cpp vs. vLLM: Mistral-Medium-3.5 128B auf 4× RTX 3090 optimieren
Der Reddit-Nutzer Septerium betreibt Mistral Medium 3.5 mit 128 Milliarden Parametern im GGUF-Format (Q4_K_XL-Quantisierung) auf einem Rig mit vier RTX-3090-GPUs (je 24 GB VRAM, insgesamt 96 GB). Mit llama.cpp erreicht er lediglich rund 11 Tokens pro Sekunde, obwohl das Modell vollständig im VRAM liegt – llama.cpp begrenzt das Kontextfenster automatisch auf ca. 44.000 Tokens, um in den verfügbaren Speicher zu passen. Als Vergleich nennt er frühere Tests mit Qwen 3.5 27B unter vLLM, das damals einen Geschwindigkeitsvorteil von 2–3× gegenüber llama.cpp zeigte, jedoch auf deutlich höheren VRAM-Verbrauch kam. Die zentrale Frage ist, ob vLLM quantisierte Modelle dieser Größe auf seiner Hardware unterstützt und wie sich der Tradeoff zwischen Inferenzgeschwindigkeit und Kontextfenstergröße kalkulieren lässt. Der Post spiegelt eine häufige Abwägung in der Local-LLM-Community wider: llama.cpp bietet einfache Handhabung und effiziente Quantisierungsunterstützung, während vLLM durch Continuous Batching und optimierte CUDA-Kernel deutlich höhere Durchsätze ermöglicht, aber weniger flexibel bei niedrig-bittigen GGUF-Quantisierungen ist.
- Modell: Mistral-Medium-3.5-128B, GGUF Q4_K_XL, 3-Part-Split, lief auf 4× RTX 3090 (96 GB VRAM gesamt)
- llama.cpp-Befehl nutzt Flash Attention (-fa on) und Jinja-Chat-Template mit reasoning_effort=none
- Automatisches Kontext-Limit durch llama.cpp: ~44.000 Tokens für vollständiges GPU-Offloading
- Früherer vLLM-Test mit Qwen 3.5 27B zeigte 2–3× höheren Durchsatz, aber signifikant mehr VRAM-Verbrauch
- Kernfrage: Unterstützt vLLM quantisierte 128B-Modelle auf dieser Hardware mit nutzbarem Kontextfenster?
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
llama.cpp vs. vLLM: Mistral-Medium-3.5 128B auf 4× RTX 3090 optimieren
Der Reddit-Nutzer Septerium betreibt Mistral Medium 3.5 mit 128 Milliarden Parametern im GGUF-Format (Q4_K_XL-Quantisierung) auf einem Rig mit vier RTX-3090-GPUs (je 24 GB VRAM, insgesamt 96 GB). Mit llama.cpp erreicht er lediglich rund 11 Tokens pro Sekunde, obwohl das Modell vollständig im VRAM liegt – llama.cpp begrenzt das Kontextfenster automatisch auf ca. 44.000 Tokens, um in den verfügbaren Speicher zu passen. Als Vergleich nennt er frühere Tests mit Qwen 3.5 27B unter vLLM, das damals einen Geschwindigkeitsvorteil von 2–3× gegenüber llama.cpp zeigte, jedoch auf deutlich höheren VRAM-Verbrauch kam. Die zentrale Frage ist, ob vLLM quantisierte Modelle dieser Größe auf seiner Hardware unterstützt und wie sich der Tradeoff zwischen Inferenzgeschwindigkeit und Kontextfenstergröße kalkulieren lässt. Der Post spiegelt eine häufige Abwägung in der Local-LLM-Community wider: llama.cpp bietet einfache Handhabung und effiziente Quantisierungsunterstützung, während vLLM durch Continuous Batching und optimierte CUDA-Kernel deutlich höhere Durchsätze ermöglicht, aber weniger flexibel bei niedrig-bittigen GGUF-Quantisierungen ist.
- Modell: Mistral-Medium-3.5-128B, GGUF Q4_K_XL, 3-Part-Split, lief auf 4× RTX 3090 (96 GB VRAM gesamt)
- llama.cpp-Befehl nutzt Flash Attention (-fa on) und Jinja-Chat-Template mit reasoning_effort=none
- Automatisches Kontext-Limit durch llama.cpp: ~44.000 Tokens für vollständiges GPU-Offloading
- Früherer vLLM-Test mit Qwen 3.5 27B zeigte 2–3× höheren Durchsatz, aber signifikant mehr VRAM-Verbrauch
- Kernfrage: Unterstützt vLLM quantisierte 128B-Modelle auf dieser Hardware mit nutzbarem Kontextfenster?
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.