Llama.cpp: Fix für Split-Mode-Tensor-Abstürze im Multi-GPU-Betrieb in Sicht

Warum es zählt

Split-Mode-Tensor bringt laut Tests ~35 % höheren Token-Generierungs-Durchsatz gegenüber Layer-Split — bisher verhinderten regelmäßige Abstürze den produktiven Einsatz auf Multi-GPU-Rigs.

— Lumeric Redaktion

Im Subreddit r/LocalLLaMA weist Nutzer /u/Bulky-Priority6824 auf einen offenbar in Entwicklung befindlichen Fix im llama.cpp-Repository hin, der den bekannten Absturz-Bug im Split-Mode-Tensor (SM Tensor) beheben soll. Laut dem Beitrag tritt das Problem bei Multi-GPU-Setups regelmäßig nach 90 bis 120 Minuten auf, ausgelöst durch VRAM-Erschöpfung. Eigene Tests des Autors zeigen, dass SM Tensor im Vergleich zum Layer-Split-Modus einen Durchsatz-Uplift von rund 35 % beim Token-Generieren (TG) liefert – ein erheblicher Vorteil, der bislang durch die Instabilität nicht nutzbar war. Der zugehörige GitHub-Issue ist unter ggml-org/llama.cpp #22404 verlinkt. Ein konkreter Release-Termin für den Fix wurde nicht genannt; der Post appelliert an die Multi-GPU-Community, die Entwicklung im Blick zu behalten.

Was wir noch wissen

Split-Mode-Tensor (SM Tensor) erzielt ~35 % mehr Token-Generierungs-Durchsatz vs. Layer-Split-Modus
Abstürze treten reproduzierbar nach 90–120 Minuten durch VRAM-Erschöpfung auf
Fix wird im GitHub-Issue ggml-org/llama.cpp #22404 verfolgt
Kein offizieller Release-Termin genannt — Fix gilt als 'incoming'

Quelle lesenreddit.com

Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Llama.cpp: Fix für Split-Mode-Tensor-Abstürze im Multi-GPU-Betrieb in Sicht

ToolsLlama

Warum es zählt

Split-Mode-Tensor bringt laut Tests ~35 % höheren Token-Generierungs-Durchsatz gegenüber Layer-Split — bisher verhinderten regelmäßige Abstürze den produktiven Einsatz auf Multi-GPU-Rigs.

— Lumeric Redaktion

Was wir noch wissen

Split-Mode-Tensor (SM Tensor) erzielt ~35 % mehr Token-Generierungs-Durchsatz vs. Layer-Split-Modus
Abstürze treten reproduzierbar nach 90–120 Minuten durch VRAM-Erschöpfung auf
Fix wird im GitHub-Issue ggml-org/llama.cpp #22404 verfolgt
Kein offizieller Release-Termin genannt — Fix gilt als 'incoming'

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Llama.cpp: Fix für Split-Mode-Tensor-Abstürze im Multi-GPU-Betrieb in Sicht

Frag die KI zum Artikel

Verwandte Beiträge

Llama.cpp: Fix für Split-Mode-Tensor-Abstürze im Multi-GPU-Betrieb in Sicht

Frag die KI zum Artikel

Verwandte Beiträge