llama.cpp: RAM-Leck bei Langzeitbetrieb mit Qwen3-27B-MTP

Warum es zählt

Wer llama.cpp im Dauerbetrieb mit MTP-Spekulation betreibt, muss mit schleichendem RAM-Wachstum rechnen; als Workaround empfiehlt sich ein cgroup-Limit mit automatischem Neustart, da weder --no-mmap noch --cache-ram 0 das Problem vollständig lösen.

— Lumeric Redaktion

Nutzer TheTerrasque beschreibt auf r/LocalLLaMA ein reproduzierbares OOM-Problem mit llama.cpp im Server-Modus: Nach 20 bis 40 Minuten aktivem Betrieb wächst der System-RAM-Verbrauch des Prozesses kontinuierlich an, bis er vom Kernel gekillt wird. Eingesetzt wird das Modell unsloth/Qwen3-27B-MTP im GGUF-Format (UD-Q4_K_XL) mit Multi-Token-Prediction (MTP) und KV-Cache-Quantisierung auf q5_1. Verschiedene Workarounds – darunter --no-mmap, --cache-ram 0 sowie unterschiedliche Builds und ein Docker-Image – konnten das Leck nur verzögern, nicht beheben. Als kurzfristige Lösung läuft der Prozess nun in einem cgroup mit 20 GB RAM-Limit, sodass er bei OOM kontrolliert neugestartet wird, bevor andere Dienste beeinträchtigt werden. Interessant: Ein zweiter Server mit schwächerer GPU, der llama.cpp über llama-swap betreibt, zeigt das Problem nicht – dort läuft der Server-Prozess jedoch selten über längere Zeiträume am Stück. Ob das Leck mit dem MTP-Spekulationsmechanismus, dem KV-Cache oder einem anderen Subsystem zusammenhängt, ist bisher unklar.

Was wir noch wissen

Betroffenes Modell: unsloth/Qwen3-27B-MTP-GGUF in UD-Q4_K_XL-Quantisierung
KV-Cache beider Rollen (Draft & Main) auf q5_1 quantisiert, Kontext 90.000 Tokens
MTP-Spekulation aktiv: --spec-type draft-mtp, --spec-draft-n-max 3
Workaround: cgroup mit 20 GB RAM-Limit + automatischer Neustart bei OOM-Kill
Auf zweitem Server mit llama-swap (kürzere Laufzeiten) tritt das Problem nicht auf

Quelle lesenreddit.com

Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp: RAM-Leck bei Langzeitbetrieb mit Qwen3-27B-MTP

ToolsQwen Llama Hugging Face

CompaniesHugging Face

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Betroffenes Modell: unsloth/Qwen3-27B-MTP-GGUF in UD-Q4_K_XL-Quantisierung
KV-Cache beider Rollen (Draft & Main) auf q5_1 quantisiert, Kontext 90.000 Tokens
MTP-Spekulation aktiv: --spec-type draft-mtp, --spec-draft-n-max 3
Workaround: cgroup mit 20 GB RAM-Limit + automatischer Neustart bei OOM-Kill
Auf zweitem Server mit llama-swap (kürzere Laufzeiten) tritt das Problem nicht auf

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp: RAM-Leck bei Langzeitbetrieb mit Qwen3-27B-MTP

Frag die KI zum Artikel

Verwandte Beiträge

llama.cpp: RAM-Leck bei Langzeitbetrieb mit Qwen3-27B-MTP

Frag die KI zum Artikel

Verwandte Beiträge