DeepSeek-V4 auf 4× RTX 2080 Ti: 255 Prefill-Token/s für unter 2.500 USD
Der Reddit-Nutzer Known_Ice9380 demonstriert, dass DeepSeek-V4-Flash – ein Mixture-of-Experts-Modell mit 284B Gesamtparametern und 13B aktiven Parametern – auf einem Budget-Node mit vier RTX 2080 Ti (je 11/22 GB VRAM) lauffähig ist. Das Gesamtbudget lag unter 2.500 USD; als CPU kommt ein Intel Xeon E5-2696 v4 zum Einsatz, ergänzt durch 1 TB DDR4-ECC-RAM für dynamisches Offloading. Der entscheidende technische Hebel sind maßgeschneiderte CUDA-Kernel für die Turing-Architektur, die W8A8-INT8-Matrixmultiplikation beschleunigen und die PCIe-Gen3-Bandbreitenengpässe mildern. Hinzu kommen optimiertes statisches Memory-Splitting zwischen VRAM und System-RAM sowie eine pipelined Execution-Strategie, die den Multi-GPU-Kommunikationsoverhead durch MoE-Routing versteckt. Mit diesen Maßnahmen werden 255 Prefill-Token pro Sekunde bei vollständig ausgelastetem Hardware-Budget erreicht. Die gesamte Implementierung inklusive Deployment-Skript und einem technischen Vorbericht ist auf GitHub veröffentlicht; ein ausführliches arXiv-Paper befindet sich noch in der Moderationsqueue.
- 284B Gesamtparameter, 13B aktive Parameter (MoE-Architektur) bei DeepSeek-V4-Flash
- Hardware: 4× RTX 2080 Ti (11/22 GB VRAM), Intel Xeon E5-2696 v4, 1 TB DDR4-ECC-RAM
- W8A8 (INT8) Quantisierung mit custom Turing-CUDA-Kerneln gegen PCIe-Gen3-Bandbreitenengpass
- Heterogenes Inference: statisches Memory-Splitting + dynamisches Offloading auf System-RAM
- Vollständiger Code, Deployment-Skript und Tech-Report open source: github.com/lvyufeng/deepseek-v4-2080ti
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
DeepSeek-V4 auf 4× RTX 2080 Ti: 255 Prefill-Token/s für unter 2.500 USD
Der Reddit-Nutzer Known_Ice9380 demonstriert, dass DeepSeek-V4-Flash – ein Mixture-of-Experts-Modell mit 284B Gesamtparametern und 13B aktiven Parametern – auf einem Budget-Node mit vier RTX 2080 Ti (je 11/22 GB VRAM) lauffähig ist. Das Gesamtbudget lag unter 2.500 USD; als CPU kommt ein Intel Xeon E5-2696 v4 zum Einsatz, ergänzt durch 1 TB DDR4-ECC-RAM für dynamisches Offloading. Der entscheidende technische Hebel sind maßgeschneiderte CUDA-Kernel für die Turing-Architektur, die W8A8-INT8-Matrixmultiplikation beschleunigen und die PCIe-Gen3-Bandbreitenengpässe mildern. Hinzu kommen optimiertes statisches Memory-Splitting zwischen VRAM und System-RAM sowie eine pipelined Execution-Strategie, die den Multi-GPU-Kommunikationsoverhead durch MoE-Routing versteckt. Mit diesen Maßnahmen werden 255 Prefill-Token pro Sekunde bei vollständig ausgelastetem Hardware-Budget erreicht. Die gesamte Implementierung inklusive Deployment-Skript und einem technischen Vorbericht ist auf GitHub veröffentlicht; ein ausführliches arXiv-Paper befindet sich noch in der Moderationsqueue.
- 284B Gesamtparameter, 13B aktive Parameter (MoE-Architektur) bei DeepSeek-V4-Flash
- Hardware: 4× RTX 2080 Ti (11/22 GB VRAM), Intel Xeon E5-2696 v4, 1 TB DDR4-ECC-RAM
- W8A8 (INT8) Quantisierung mit custom Turing-CUDA-Kerneln gegen PCIe-Gen3-Bandbreitenengpass
- Heterogenes Inference: statisches Memory-Splitting + dynamisches Offloading auf System-RAM
- Vollständiger Code, Deployment-Skript und Tech-Report open source: github.com/lvyufeng/deepseek-v4-2080ti
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.