ik_llama.cpp-Fork: NUMA-Mirror-Modus für Multi-Socket-CPU-Inferenz
Warum es zählt
Betreiber von Multi-Socket-Servern (z.B. Dual-Xeon) können mit --numa mirror statt --numa isolate bis zu 1.64× höheren Durchsatz erzielen – auf Kosten des doppelten RAM-Bedarfs. Relevant für alle, die große Modelle auf gebrauchter Enterprise-Hardware wie Dell PowerEdge betreiben.
— Lumeric Redaktion
llama-bench tg128 (Qwen3.6-27B, Q4_K_M) · Spitzenwert
5.27%
isolate (1 Socket, 24t)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
ik_llama.cpp-Fork: NUMA-Mirror-Modus für Multi-Socket-CPU-Inferenz
Warum es zählt
Betreiber von Multi-Socket-Servern (z.B. Dual-Xeon) können mit --numa mirror statt --numa isolate bis zu 1.64× höheren Durchsatz erzielen – auf Kosten des doppelten RAM-Bedarfs. Relevant für alle, die große Modelle auf gebrauchter Enterprise-Hardware wie Dell PowerEdge betreiben.
— Lumeric Redaktion
llama-bench tg128 (Qwen3.6-27B, Q4_K_M) · Spitzenwert
5.27%
isolate (1 Socket, 24t)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.