DeepSeek-V4 auf 4× RTX 2080 Ti: 255 Prefill-Token/s für unter 2.500 USD

Warum es zählt

Custom CUDA-Kernel für Turing-Architektur und heterogenes Memory-Splitting machen frontier MoE-Inferenz auf Legacy-Consumer-GPUs möglich – relevant für alle, die große Modelle ohne H100-Cluster lokal betreiben wollen. Das komplette Setup inkl. Deployment-Skript ist Open Source auf GitHub verfügbar.

— Lumeric Redaktion

Der Reddit-Nutzer Known_Ice9380 demonstriert, dass DeepSeek-V4-Flash – ein Mixture-of-Experts-Modell mit 284B Gesamtparametern und 13B aktiven Parametern – auf einem Budget-Node mit vier RTX 2080 Ti (je 11/22 GB VRAM) lauffähig ist. Das Gesamtbudget lag unter 2.500 USD; als CPU kommt ein Intel Xeon E5-2696 v4 zum Einsatz, ergänzt durch 1 TB DDR4-ECC-RAM für dynamisches Offloading. Der entscheidende technische Hebel sind maßgeschneiderte CUDA-Kernel für die Turing-Architektur, die W8A8-INT8-Matrixmultiplikation beschleunigen und die PCIe-Gen3-Bandbreitenengpässe mildern. Hinzu kommen optimiertes statisches Memory-Splitting zwischen VRAM und System-RAM sowie eine pipelined Execution-Strategie, die den Multi-GPU-Kommunikationsoverhead durch MoE-Routing versteckt. Mit diesen Maßnahmen werden 255 Prefill-Token pro Sekunde bei vollständig ausgelastetem Hardware-Budget erreicht. Die gesamte Implementierung inklusive Deployment-Skript und einem technischen Vorbericht ist auf GitHub veröffentlicht; ein ausführliches arXiv-Paper befindet sich noch in der Moderationsqueue.

Was wir noch wissen

284B Gesamtparameter, 13B aktive Parameter (MoE-Architektur) bei DeepSeek-V4-Flash
Hardware: 4× RTX 2080 Ti (11/22 GB VRAM), Intel Xeon E5-2696 v4, 1 TB DDR4-ECC-RAM
W8A8 (INT8) Quantisierung mit custom Turing-CUDA-Kerneln gegen PCIe-Gen3-Bandbreitenengpass
Heterogenes Inference: statisches Memory-Splitting + dynamisches Offloading auf System-RAM
Vollständiger Code, Deployment-Skript und Tech-Report open source: github.com/lvyufeng/deepseek-v4-2080ti

Quelle lesenreddit.com

255 tok/s

Prefill-Durchsatz auf 4× RTX 2080 Ti

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

DeepSeek-V4 auf 4× RTX 2080 Ti: 255 Prefill-Token/s für unter 2.500 USD

ToolsNVIDIA Hardware DeepSeek

CompaniesDeepSeek

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

284B Gesamtparameter, 13B aktive Parameter (MoE-Architektur) bei DeepSeek-V4-Flash
Hardware: 4× RTX 2080 Ti (11/22 GB VRAM), Intel Xeon E5-2696 v4, 1 TB DDR4-ECC-RAM
W8A8 (INT8) Quantisierung mit custom Turing-CUDA-Kerneln gegen PCIe-Gen3-Bandbreitenengpass
Heterogenes Inference: statisches Memory-Splitting + dynamisches Offloading auf System-RAM
Vollständiger Code, Deployment-Skript und Tech-Report open source: github.com/lvyufeng/deepseek-v4-2080ti

255 tok/s

Prefill-Durchsatz auf 4× RTX 2080 Ti

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

DeepSeek-V4 auf 4× RTX 2080 Ti: 255 Prefill-Token/s für unter 2.500 USD

Frag die KI zum Artikel

Verwandte Beiträge

DeepSeek-V4 auf 4× RTX 2080 Ti: 255 Prefill-Token/s für unter 2.500 USD

Frag die KI zum Artikel

Verwandte Beiträge