wird geladen

GLM-5.2 + MTP Speculative Decode auf 4× DGX Spark GB10: ~9,4 tok/s erreicht · Lumeric

Feed
Digest
Lounge
Stash
Profil

Beitrag

FORSCHUNG

reddit.com· r/LocalLLaMA3h

GLM-5.2 + MTP Speculative Decode auf 4× DGX Spark GB10: ~9,4 tok/s erreicht

ToolsClaude Llama

Warum es zählt

Wer GLM-5.2 auf GB10-Hardware (sm_121) betreiben will, muss vLLM exakt am gepinnten Commit bauen und fehlende Build-Skripte selbst rekonstruieren – der Beitrag liefert dafür ein reproduzierbares Fork mit Patch-Skript. MTP-Akzeptanzrate von ~2,8/4 zeigt realen Durchsatz-Gewinn gegenüber llama.cpp RPC.

— Lumeric Redaktion

Quelle lesenreddit.com

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

MEINUNGreddit.com1w
Community fragt: GLM-5.2 auf 4× Ascend GX10 mit 512 GB Unified Memory
MEINUNGreddit.com11h
GLM5.2 auf GH200: Community-Hack steigert Inferenz von 2,5 auf 55 tok/s
MEINUNGreddit.com2w
Gemma 4 QAT + MTP Speculative Decoding: max. 33 % Speed-Gain auf 2× RTX 3060 Ti

FORSCHUNG

reddit.com· r/LocalLLaMA3h

GLM-5.2 + MTP Speculative Decode auf 4× DGX Spark GB10: ~9,4 tok/s erreicht

ToolsClaude Llama

Warum es zählt

Wer GLM-5.2 auf GB10-Hardware (sm_121) betreiben will, muss vLLM exakt am gepinnten Commit bauen und fehlende Build-Skripte selbst rekonstruieren – der Beitrag liefert dafür ein reproduzierbares Fork mit Patch-Skript. MTP-Akzeptanzrate von ~2,8/4 zeigt realen Durchsatz-Gewinn gegenüber llama.cpp RPC.

— Lumeric Redaktion

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Quelle lesenreddit.com

Themen

Inferenz Infra Open Source Foundation Modelle

Reaktion

Speichern

Verwandte Beiträge

MEINUNGreddit.com1w
Community fragt: GLM-5.2 auf 4× Ascend GX10 mit 512 GB Unified Memory
MEINUNGreddit.com11h
GLM5.2 auf GH200: Community-Hack steigert Inferenz von 2,5 auf 55 tok/s
MEINUNGreddit.com2w
Gemma 4 QAT + MTP Speculative Decoding: max. 33 % Speed-Gain auf 2× RTX 3060 Ti