DeepSeek-V4-Flash mit MTP-Spekulation: 85 tok/s auf 2× RTX PRO 6000 Max-Q
Der Reddit-Nutzer LordNeel hat ein Problem mit dem populären DeepSeek-V4-Flash-W4A16-FP8-Quant von pasta-paul behoben: Der MTP-Kopf (Multi-Token Prediction) wurde beim Laden durch HuggingFace Transformers still verworfen, sodass die vLLM-Spekulationskonfiguration wirkungslos blieb. LordNeel hat den MTP-Block nachgerüstet, einen GPTQ-Pass (Frantar-Stil mit Cholesky H⁻¹) auf den 768 gerouteten Expertentensoren durchgeführt und vLLM gepatcht. Das resultierende Modell läuft mit TP=2 auf zwei RTX PRO 6000 Max-Q (je 96 GB, kein NVLink) und liefert 85,52 tok/s bei 524k Kontext bzw. ~111 tok/s bei 128k – gegenüber 52,85 tok/s ohne MTP. Das Modell (671B gesamt, 32B aktiv) ist auf Hugging Face unter LordNeel/DeepSeek-V4-Flash-Acti-MTP-W4A16-FP8 verfügbar. Wichtige Einschränkung: TP=1 führt zu OOM, TP≥4 trifft einen upstream-Bug in vLLM; num_speculative_tokens ist auf 1 begrenzt, da DSV4-Flash nur einen MTP-Kopf mitbringt. Für Max-Q-Karten ist zwingend --disable-custom-all-reduce nötig, da CUDA P2P auf PCIe-Topologie deadlocked.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
DeepSeek-V4-Flash mit MTP-Spekulation: 85 tok/s auf 2× RTX PRO 6000 Max-Q
Der Reddit-Nutzer LordNeel hat ein Problem mit dem populären DeepSeek-V4-Flash-W4A16-FP8-Quant von pasta-paul behoben: Der MTP-Kopf (Multi-Token Prediction) wurde beim Laden durch HuggingFace Transformers still verworfen, sodass die vLLM-Spekulationskonfiguration wirkungslos blieb. LordNeel hat den MTP-Block nachgerüstet, einen GPTQ-Pass (Frantar-Stil mit Cholesky H⁻¹) auf den 768 gerouteten Expertentensoren durchgeführt und vLLM gepatcht. Das resultierende Modell läuft mit TP=2 auf zwei RTX PRO 6000 Max-Q (je 96 GB, kein NVLink) und liefert 85,52 tok/s bei 524k Kontext bzw. ~111 tok/s bei 128k – gegenüber 52,85 tok/s ohne MTP. Das Modell (671B gesamt, 32B aktiv) ist auf Hugging Face unter LordNeel/DeepSeek-V4-Flash-Acti-MTP-W4A16-FP8 verfügbar. Wichtige Einschränkung: TP=1 führt zu OOM, TP≥4 trifft einen upstream-Bug in vLLM; num_speculative_tokens ist auf 1 begrenzt, da DSV4-Flash nur einen MTP-Kopf mitbringt. Für Max-Q-Karten ist zwingend --disable-custom-all-reduce nötig, da CUDA P2P auf PCIe-Topologie deadlocked.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.