GLM-5.2 lokal auf CPU-only-Server: 4–5,5 tok/s mit ik_llama.cpp

Warum es zählt

GLM-5.2 lässt sich mit ausreichend RAM (384 GB node-lokal) und ik_llama.cpp auch ohne GPU betreiben – relevant für alle, die starke Modelle auf Server-Hardware ohne GPU-Budget evaluieren wollen. Die Geschwindigkeit (~3 tok/s im Coding-Kontext) ist für produktiven Einsatz grenzwertig, aber für Experimente nutzbar.

— Lumeric Redaktion

Quelle lesenreddit.com

Open Source Inferenz Infra Foundation Modelle