GLM 5.2 Q4 läuft CPU-only auf EPYC Rome mit 512 GB RAM
CompaniesAMD
Warum es zählt
Zeigt, dass große quantisierte Modelle ohne GPU auf Server-CPUs mit ausreichend RAM lauffähig sind – relevant für Setups ohne teure Beschleuniger. Die Inferenzgeschwindigkeit ist mit 2,5 Stunden für ~15k Tokens für Echtzeit-Nutzung unpraktisch, aber für Batch-Workloads denkbar.
— Lumeric Redaktion
15.510 Tokens in 2h 29min
Inferenzzeit CPU-only auf EPYC Rome
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
GLM 5.2 Q4 läuft CPU-only auf EPYC Rome mit 512 GB RAM
CompaniesAMD
Warum es zählt
Zeigt, dass große quantisierte Modelle ohne GPU auf Server-CPUs mit ausreichend RAM lauffähig sind – relevant für Setups ohne teure Beschleuniger. Die Inferenzgeschwindigkeit ist mit 2,5 Stunden für ~15k Tokens für Echtzeit-Nutzung unpraktisch, aber für Batch-Workloads denkbar.
— Lumeric Redaktion
15.510 Tokens in 2h 29min
Inferenzzeit CPU-only auf EPYC Rome
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.