GLM-5.2 UD-IQ1_M auf llama.cpp: Speed-Test mit RTX 5090 + 3090 Ti
ToolsLlama
Warum es zählt
GLM-5.2 läuft auf Consumer-Hardware mit 128k Kontext bei vertretbarer Decode-Geschwindigkeit. Die Konfiguration mit CPU-MoE-Offloading und geteilten Tensoren zeigt, wie große MoE-Modelle mit zwei GPUs und DDR5-RAM nutzbar gemacht werden können.
— Lumeric Redaktion
llama.cpp Prefill-Durchsatz (t/s) · Spitzenwert
579.75%
8k Kontext
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
GLM-5.2 UD-IQ1_M auf llama.cpp: Speed-Test mit RTX 5090 + 3090 Ti
ToolsLlama
Warum es zählt
GLM-5.2 läuft auf Consumer-Hardware mit 128k Kontext bei vertretbarer Decode-Geschwindigkeit. Die Konfiguration mit CPU-MoE-Offloading und geteilten Tensoren zeigt, wie große MoE-Modelle mit zwei GPUs und DDR5-RAM nutzbar gemacht werden können.
— Lumeric Redaktion
llama.cpp Prefill-Durchsatz (t/s) · Spitzenwert
579.75%
8k Kontext
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.