llama.cpp: RAM-Leck bei Langzeitbetrieb mit Qwen3-27B-MTP
Nutzer TheTerrasque beschreibt auf r/LocalLLaMA ein reproduzierbares OOM-Problem mit llama.cpp im Server-Modus: Nach 20 bis 40 Minuten aktivem Betrieb wächst der System-RAM-Verbrauch des Prozesses kontinuierlich an, bis er vom Kernel gekillt wird. Eingesetzt wird das Modell unsloth/Qwen3-27B-MTP im GGUF-Format (UD-Q4_K_XL) mit Multi-Token-Prediction (MTP) und KV-Cache-Quantisierung auf q5_1. Verschiedene Workarounds – darunter --no-mmap, --cache-ram 0 sowie unterschiedliche Builds und ein Docker-Image – konnten das Leck nur verzögern, nicht beheben. Als kurzfristige Lösung läuft der Prozess nun in einem cgroup mit 20 GB RAM-Limit, sodass er bei OOM kontrolliert neugestartet wird, bevor andere Dienste beeinträchtigt werden. Interessant: Ein zweiter Server mit schwächerer GPU, der llama.cpp über llama-swap betreibt, zeigt das Problem nicht – dort läuft der Server-Prozess jedoch selten über längere Zeiträume am Stück. Ob das Leck mit dem MTP-Spekulationsmechanismus, dem KV-Cache oder einem anderen Subsystem zusammenhängt, ist bisher unklar.
- Betroffenes Modell: unsloth/Qwen3-27B-MTP-GGUF in UD-Q4_K_XL-Quantisierung
- KV-Cache beider Rollen (Draft & Main) auf q5_1 quantisiert, Kontext 90.000 Tokens
- MTP-Spekulation aktiv: --spec-type draft-mtp, --spec-draft-n-max 3
- Workaround: cgroup mit 20 GB RAM-Limit + automatischer Neustart bei OOM-Kill
- Auf zweitem Server mit llama-swap (kürzere Laufzeiten) tritt das Problem nicht auf
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
llama.cpp: RAM-Leck bei Langzeitbetrieb mit Qwen3-27B-MTP
Nutzer TheTerrasque beschreibt auf r/LocalLLaMA ein reproduzierbares OOM-Problem mit llama.cpp im Server-Modus: Nach 20 bis 40 Minuten aktivem Betrieb wächst der System-RAM-Verbrauch des Prozesses kontinuierlich an, bis er vom Kernel gekillt wird. Eingesetzt wird das Modell unsloth/Qwen3-27B-MTP im GGUF-Format (UD-Q4_K_XL) mit Multi-Token-Prediction (MTP) und KV-Cache-Quantisierung auf q5_1. Verschiedene Workarounds – darunter --no-mmap, --cache-ram 0 sowie unterschiedliche Builds und ein Docker-Image – konnten das Leck nur verzögern, nicht beheben. Als kurzfristige Lösung läuft der Prozess nun in einem cgroup mit 20 GB RAM-Limit, sodass er bei OOM kontrolliert neugestartet wird, bevor andere Dienste beeinträchtigt werden. Interessant: Ein zweiter Server mit schwächerer GPU, der llama.cpp über llama-swap betreibt, zeigt das Problem nicht – dort läuft der Server-Prozess jedoch selten über längere Zeiträume am Stück. Ob das Leck mit dem MTP-Spekulationsmechanismus, dem KV-Cache oder einem anderen Subsystem zusammenhängt, ist bisher unklar.
- Betroffenes Modell: unsloth/Qwen3-27B-MTP-GGUF in UD-Q4_K_XL-Quantisierung
- KV-Cache beider Rollen (Draft & Main) auf q5_1 quantisiert, Kontext 90.000 Tokens
- MTP-Spekulation aktiv: --spec-type draft-mtp, --spec-draft-n-max 3
- Workaround: cgroup mit 20 GB RAM-Limit + automatischer Neustart bei OOM-Kill
- Auf zweitem Server mit llama-swap (kürzere Laufzeiten) tritt das Problem nicht auf
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.