Mögliches Memory Leak in llama.cpp beim Step-3.5-flash-Modell
Warum es zählt
Das potenzielle Memory Leak gefährdet die Stabilität bei großen Modellen im lokalen Einsatz und könnte die praktische Nutzung von marginal passenden Quantisierungen unmöglich machen, wenn Speicher nicht ordnungsgemäß freigegeben wird.
— Lumeric Redaktion
Nutzer berichtet von kontinuierlichem Speicheranstieg beim Betrieb von Step-3.5-flash auf 128GB-System mit llama.cpp 2.13.0 und Vulkan-Backend – nach mehreren Queries steigt RAM von 108GB auf 120GB, ohne vollständig freigegeben zu werden.
Was wir noch wissen
- Model: Step-3.5-flash in Q4_XS-Quantisierung (105GB), ~150K Context Window
- System: 128GB Speicher, Vulkan-Backend über LM Studio, llama.cpp 2.13.0
- Beobachtung: RAM-Nutzung steigt von 108GB initial auf 120GB nach mehreren Queries, /compact-Befehl behebt das Problem nicht
- Symptom: Speicher wird nach jeder Query nicht vollständig freigegeben, was auf fragmentiertes Heap oder nicht deallokierte Puffer hindeutet
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Mögliches Memory Leak in llama.cpp beim Step-3.5-flash-Modell
Warum es zählt
Das potenzielle Memory Leak gefährdet die Stabilität bei großen Modellen im lokalen Einsatz und könnte die praktische Nutzung von marginal passenden Quantisierungen unmöglich machen, wenn Speicher nicht ordnungsgemäß freigegeben wird.
— Lumeric Redaktion
Nutzer berichtet von kontinuierlichem Speicheranstieg beim Betrieb von Step-3.5-flash auf 128GB-System mit llama.cpp 2.13.0 und Vulkan-Backend – nach mehreren Queries steigt RAM von 108GB auf 120GB, ohne vollständig freigegeben zu werden.
Was wir noch wissen
- Model: Step-3.5-flash in Q4_XS-Quantisierung (105GB), ~150K Context Window
- System: 128GB Speicher, Vulkan-Backend über LM Studio, llama.cpp 2.13.0
- Beobachtung: RAM-Nutzung steigt von 108GB initial auf 120GB nach mehreren Queries, /compact-Befehl behebt das Problem nicht
- Symptom: Speicher wird nach jeder Query nicht vollständig freigegeben, was auf fragmentiertes Heap oder nicht deallokierte Puffer hindeutet
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.