llama.cpp vs. vLLM: Mistral-Medium-3.5 128B auf 4× RTX 3090 optimieren

Warum es zählt

Die Frage beleuchtet den praktischen Tradeoff zwischen llama.cpp (niedriger VRAM, moderate Geschwindigkeit) und vLLM (2–3× schneller, aber deutlich höherer VRAM-Bedarf) beim Betrieb großer Dense-Modelle auf Consumer-GPUs.

— Lumeric Redaktion

Der Reddit-Nutzer Septerium betreibt Mistral Medium 3.5 mit 128 Milliarden Parametern im GGUF-Format (Q4_K_XL-Quantisierung) auf einem Rig mit vier RTX-3090-GPUs (je 24 GB VRAM, insgesamt 96 GB). Mit llama.cpp erreicht er lediglich rund 11 Tokens pro Sekunde, obwohl das Modell vollständig im VRAM liegt – llama.cpp begrenzt das Kontextfenster automatisch auf ca. 44.000 Tokens, um in den verfügbaren Speicher zu passen. Als Vergleich nennt er frühere Tests mit Qwen 3.5 27B unter vLLM, das damals einen Geschwindigkeitsvorteil von 2–3× gegenüber llama.cpp zeigte, jedoch auf deutlich höheren VRAM-Verbrauch kam. Die zentrale Frage ist, ob vLLM quantisierte Modelle dieser Größe auf seiner Hardware unterstützt und wie sich der Tradeoff zwischen Inferenzgeschwindigkeit und Kontextfenstergröße kalkulieren lässt. Der Post spiegelt eine häufige Abwägung in der Local-LLM-Community wider: llama.cpp bietet einfache Handhabung und effiziente Quantisierungsunterstützung, während vLLM durch Continuous Batching und optimierte CUDA-Kernel deutlich höhere Durchsätze ermöglicht, aber weniger flexibel bei niedrig-bittigen GGUF-Quantisierungen ist.

Was wir noch wissen

Modell: Mistral-Medium-3.5-128B, GGUF Q4_K_XL, 3-Part-Split, lief auf 4× RTX 3090 (96 GB VRAM gesamt)
llama.cpp-Befehl nutzt Flash Attention (-fa on) und Jinja-Chat-Template mit reasoning_effort=none
Automatisches Kontext-Limit durch llama.cpp: ~44.000 Tokens für vollständiges GPU-Offloading
Früherer vLLM-Test mit Qwen 3.5 27B zeigte 2–3× höheren Durchsatz, aber signifikant mehr VRAM-Verbrauch
Kernfrage: Unterstützt vLLM quantisierte 128B-Modelle auf dieser Hardware mit nutzbarem Kontextfenster?

Quelle lesenreddit.com

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp vs. vLLM: Mistral-Medium-3.5 128B auf 4× RTX 3090 optimieren

ToolsQwen Mistral Llama

CompaniesMistral AI

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Modell: Mistral-Medium-3.5-128B, GGUF Q4_K_XL, 3-Part-Split, lief auf 4× RTX 3090 (96 GB VRAM gesamt)
llama.cpp-Befehl nutzt Flash Attention (-fa on) und Jinja-Chat-Template mit reasoning_effort=none
Automatisches Kontext-Limit durch llama.cpp: ~44.000 Tokens für vollständiges GPU-Offloading
Früherer vLLM-Test mit Qwen 3.5 27B zeigte 2–3× höheren Durchsatz, aber signifikant mehr VRAM-Verbrauch
Kernfrage: Unterstützt vLLM quantisierte 128B-Modelle auf dieser Hardware mit nutzbarem Kontextfenster?

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp vs. vLLM: Mistral-Medium-3.5 128B auf 4× RTX 3090 optimieren

Frag die KI zum Artikel

Verwandte Beiträge

llama.cpp vs. vLLM: Mistral-Medium-3.5 128B auf 4× RTX 3090 optimieren

Frag die KI zum Artikel

Verwandte Beiträge