Llama.cpp: Fix für Split-Mode-Tensor-Abstürze im Multi-GPU-Betrieb in Sicht
Im Subreddit r/LocalLLaMA weist Nutzer /u/Bulky-Priority6824 auf einen offenbar in Entwicklung befindlichen Fix im llama.cpp-Repository hin, der den bekannten Absturz-Bug im Split-Mode-Tensor (SM Tensor) beheben soll. Laut dem Beitrag tritt das Problem bei Multi-GPU-Setups regelmäßig nach 90 bis 120 Minuten auf, ausgelöst durch VRAM-Erschöpfung. Eigene Tests des Autors zeigen, dass SM Tensor im Vergleich zum Layer-Split-Modus einen Durchsatz-Uplift von rund 35 % beim Token-Generieren (TG) liefert – ein erheblicher Vorteil, der bislang durch die Instabilität nicht nutzbar war. Der zugehörige GitHub-Issue ist unter ggml-org/llama.cpp #22404 verlinkt. Ein konkreter Release-Termin für den Fix wurde nicht genannt; der Post appelliert an die Multi-GPU-Community, die Entwicklung im Blick zu behalten.
- Split-Mode-Tensor (SM Tensor) erzielt ~35 % mehr Token-Generierungs-Durchsatz vs. Layer-Split-Modus
- Abstürze treten reproduzierbar nach 90–120 Minuten durch VRAM-Erschöpfung auf
- Fix wird im GitHub-Issue ggml-org/llama.cpp #22404 verfolgt
- Kein offizieller Release-Termin genannt — Fix gilt als 'incoming'
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com1w
Llama.cpp-Fork behebt Tensor-Parallelismus mit quantisierten KV-Caches für Dual-GPU
- MEINUNGreddit.com1w
MTP vs. Non-MTP: VRAM-Verbrauch in llama.cpp im Vergleich
- LAUNCHreddit.com3w
Llama.cpp integriert MTP-Unterstützung in Beta
- MEINUNGreddit.com3w
Multi-GPU-Stabilität bei lokalen LLM-Clustern: ROCm-Bugs und Power-Throttling
Llama.cpp: Fix für Split-Mode-Tensor-Abstürze im Multi-GPU-Betrieb in Sicht
Im Subreddit r/LocalLLaMA weist Nutzer /u/Bulky-Priority6824 auf einen offenbar in Entwicklung befindlichen Fix im llama.cpp-Repository hin, der den bekannten Absturz-Bug im Split-Mode-Tensor (SM Tensor) beheben soll. Laut dem Beitrag tritt das Problem bei Multi-GPU-Setups regelmäßig nach 90 bis 120 Minuten auf, ausgelöst durch VRAM-Erschöpfung. Eigene Tests des Autors zeigen, dass SM Tensor im Vergleich zum Layer-Split-Modus einen Durchsatz-Uplift von rund 35 % beim Token-Generieren (TG) liefert – ein erheblicher Vorteil, der bislang durch die Instabilität nicht nutzbar war. Der zugehörige GitHub-Issue ist unter ggml-org/llama.cpp #22404 verlinkt. Ein konkreter Release-Termin für den Fix wurde nicht genannt; der Post appelliert an die Multi-GPU-Community, die Entwicklung im Blick zu behalten.
- Split-Mode-Tensor (SM Tensor) erzielt ~35 % mehr Token-Generierungs-Durchsatz vs. Layer-Split-Modus
- Abstürze treten reproduzierbar nach 90–120 Minuten durch VRAM-Erschöpfung auf
- Fix wird im GitHub-Issue ggml-org/llama.cpp #22404 verfolgt
- Kein offizieller Release-Termin genannt — Fix gilt als 'incoming'
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com1w
Llama.cpp-Fork behebt Tensor-Parallelismus mit quantisierten KV-Caches für Dual-GPU
- MEINUNGreddit.com1w
MTP vs. Non-MTP: VRAM-Verbrauch in llama.cpp im Vergleich
- LAUNCHreddit.com3w
Llama.cpp integriert MTP-Unterstützung in Beta
- MEINUNGreddit.com3w
Multi-GPU-Stabilität bei lokalen LLM-Clustern: ROCm-Bugs und Power-Throttling