GLM 5.2 Q4 läuft CPU-only auf EPYC Rome mit 512 GB RAM

CompaniesAMD

Warum es zählt

Zeigt, dass große quantisierte Modelle ohne GPU auf Server-CPUs mit ausreichend RAM lauffähig sind – relevant für Setups ohne teure Beschleuniger. Die Inferenzgeschwindigkeit ist mit 2,5 Stunden für ~15k Tokens für Echtzeit-Nutzung unpraktisch, aber für Batch-Workloads denkbar.

— Lumeric Redaktion

Quelle lesenreddit.com

15.510 Tokens in 2h 29min

Inferenzzeit CPU-only auf EPYC Rome

Foundation Modelle Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

GLM 5.2 Q4 läuft CPU-only auf EPYC Rome mit 512 GB RAM

CompaniesAMD

Warum es zählt

— Lumeric Redaktion

15.510 Tokens in 2h 29min

Inferenzzeit CPU-only auf EPYC Rome

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

GLM 5.2 Q4 läuft CPU-only auf EPYC Rome mit 512 GB RAM

Frag die KI zum Artikel

Verwandte Beiträge

GLM 5.2 Q4 läuft CPU-only auf EPYC Rome mit 512 GB RAM

Frag die KI zum Artikel

Verwandte Beiträge