wird geladen

DeepSeek-V4-Flash mit MTP-Spekulation: 85 tok/s auf 2× RTX PRO 6000 Max-Q · Lumeric

Beitrag

LAUNCH

reddit.com· r/LocalLLaMA2mo

DeepSeek-V4-Flash mit MTP-Spekulation: 85 tok/s auf 2× RTX PRO 6000 Max-Q

ToolsClaude NVIDIA Hardware DeepSeek Hugging Face Cursor

CompaniesDeepSeek Hugging Face NVIDIA

Warum es zählt

Der MTP-Fix steigert den Decode-Durchsatz gegenüber dem Basis-Quant von 52,85 auf bis zu 111 tok/s – ein 2,1-facher Speedup ohne zusätzliche Hardware, relevant für alle, die DSV4-Flash lokal mit vLLM betreiben.

— Lumeric Redaktion

Der Reddit-Nutzer LordNeel hat ein Problem mit dem populären DeepSeek-V4-Flash-W4A16-FP8-Quant von pasta-paul behoben: Der MTP-Kopf (Multi-Token Prediction) wurde beim Laden durch HuggingFace Transformers still verworfen, sodass die vLLM-Spekulationskonfiguration wirkungslos blieb. LordNeel hat den MTP-Block nachgerüstet, einen GPTQ-Pass (Frantar-Stil mit Cholesky H⁻¹) auf den 768 gerouteten Expertentensoren durchgeführt und vLLM gepatcht. Das resultierende Modell läuft mit TP=2 auf zwei RTX PRO 6000 Max-Q (je 96 GB, kein NVLink) und liefert 85,52 tok/s bei 524k Kontext bzw. ~111 tok/s bei 128k – gegenüber 52,85 tok/s ohne MTP. Das Modell (671B gesamt, 32B aktiv) ist auf Hugging Face unter LordNeel/DeepSeek-V4-Flash-Acti-MTP-W4A16-FP8 verfügbar. Wichtige Einschränkung: TP=1 führt zu OOM, TP≥4 trifft einen upstream-Bug in vLLM; num_speculative_tokens ist auf 1 begrenzt, da DSV4-Flash nur einen MTP-Kopf mitbringt. Für Max-Q-Karten ist zwingend --disable-custom-all-reduce nötig, da CUDA P2P auf PCIe-Topologie deadlocked.

Quelle lesenreddit.com

Decode-Durchsatz (tok/s) auf 2× RTX PRO 6000 Max-Q · Spitzenwert

52.85%

pasta-paul base, kein MTP, 524k

Foundation Modelle Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

LAUNCH

reddit.com· r/LocalLLaMA2mo

DeepSeek-V4-Flash mit MTP-Spekulation: 85 tok/s auf 2× RTX PRO 6000 Max-Q

ToolsClaude NVIDIA Hardware DeepSeek Hugging Face Cursor

CompaniesDeepSeek Hugging Face NVIDIA

Warum es zählt

Der MTP-Fix steigert den Decode-Durchsatz gegenüber dem Basis-Quant von 52,85 auf bis zu 111 tok/s – ein 2,1-facher Speedup ohne zusätzliche Hardware, relevant für alle, die DSV4-Flash lokal mit vLLM betreiben.

— Lumeric Redaktion

Der Reddit-Nutzer LordNeel hat ein Problem mit dem populären DeepSeek-V4-Flash-W4A16-FP8-Quant von pasta-paul behoben: Der MTP-Kopf (Multi-Token Prediction) wurde beim Laden durch HuggingFace Transformers still verworfen, sodass die vLLM-Spekulationskonfiguration wirkungslos blieb. LordNeel hat den MTP-Block nachgerüstet, einen GPTQ-Pass (Frantar-Stil mit Cholesky H⁻¹) auf den 768 gerouteten Expertentensoren durchgeführt und vLLM gepatcht. Das resultierende Modell läuft mit TP=2 auf zwei RTX PRO 6000 Max-Q (je 96 GB, kein NVLink) und liefert 85,52 tok/s bei 524k Kontext bzw. ~111 tok/s bei 128k – gegenüber 52,85 tok/s ohne MTP. Das Modell (671B gesamt, 32B aktiv) ist auf Hugging Face unter LordNeel/DeepSeek-V4-Flash-Acti-MTP-W4A16-FP8 verfügbar. Wichtige Einschränkung: TP=1 führt zu OOM, TP≥4 trifft einen upstream-Bug in vLLM; num_speculative_tokens ist auf 1 begrenzt, da DSV4-Flash nur einen MTP-Kopf mitbringt. Für Max-Q-Karten ist zwingend --disable-custom-all-reduce nötig, da CUDA P2P auf PCIe-Topologie deadlocked.

Decode-Durchsatz (tok/s) auf 2× RTX PRO 6000 Max-Q · Spitzenwert

52.85%

pasta-paul base, kein MTP, 524k

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge