GLM-5.2 UD-IQ1_M auf llama.cpp: Speed-Test mit RTX 5090 + 3090 Ti

Warum es zählt

GLM-5.2 läuft auf Consumer-Hardware mit 128k Kontext bei vertretbarer Decode-Geschwindigkeit. Die Konfiguration mit CPU-MoE-Offloading und geteilten Tensoren zeigt, wie große MoE-Modelle mit zwei GPUs und DDR5-RAM nutzbar gemacht werden können.

— Lumeric Redaktion

Quelle lesenreddit.com

llama.cpp Prefill-Durchsatz (t/s) · Spitzenwert

579.75%

8k Kontext

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

GLM-5.2 UD-IQ1_M auf llama.cpp: Speed-Test mit RTX 5090 + 3090 Ti

ToolsLlama

Warum es zählt

— Lumeric Redaktion

llama.cpp Prefill-Durchsatz (t/s) · Spitzenwert

579.75%

8k Kontext

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

GLM-5.2 UD-IQ1_M auf llama.cpp: Speed-Test mit RTX 5090 + 3090 Ti

Frag die KI zum Artikel

Verwandte Beiträge

GLM-5.2 UD-IQ1_M auf llama.cpp: Speed-Test mit RTX 5090 + 3090 Ti

Frag die KI zum Artikel

Verwandte Beiträge