DeepSeek V4 Pro als Q4_K_M lokal auf EPYC-Workstation betrieben
Reddit-Nutzer u/fairydreaming hat DeepSeek V4 Pro erfolgreich lokal zum Laufen gebracht — als Q4_K_M-GGUF-Datei mit einer Größe von 859 GB. Basis ist ein modifizierter CUDA-Fork von u/LegacyRemaster (selbst basierend auf u/antirez' Arbeit), der Q4_K_M-Konvertierung in llama.cpp unterstützt. Die Hardware besteht aus einem AMD EPYC Genoa 9374F mit 12 × 96 GB RAM (gesamt ~794 GB Host-RAM) sowie einer NVIDIA RTX PRO 6000 Blackwell Max-Q mit 97.247 MiB VRAM. Das Modell belegt davon ~87.766 MiB GPU-VRAM. Der Prompt-Durchsatz liegt bei 12,2 t/s, die Generationsgeschwindigkeit bei 8,6 t/s. Das Modell läuft mit dem DeepSeek-V3.2-Chat-Template und meldet sich im Test korrekt als DeepSeek-Assistent mit 1M-Kontextfenster und Wissensdatum Mai 2025. Der Beitrag verdeutlicht, dass der Betrieb solcher Frontier-Modelle lokal zwar technisch möglich, aber an extreme Hardware-Anforderungen geknüpft ist.
- Modelldatei DeepSeek-V4-Pro-Q4_K_M.gguf ist 859 GB groß
- GPU: NVIDIA RTX PRO 6000 Blackwell Max-Q, Compute Capability 12.0, 97.247 MiB VRAM
- CPU-System: AMD EPYC Genoa 9374F, 12 × 96 GB RAM (~794 GB Host-RAM genutzt)
- CUDA-Fork basiert auf Arbeiten von u/antirez und u/LegacyRemaster (llama.cpp-deepseek-v4-flash-cuda)
- Prompt: 12,2 t/s | Generation: 8,6 t/s — Modell läuft stabil ohne Anpassungen am Start
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
DeepSeek V4 Pro als Q4_K_M lokal auf EPYC-Workstation betrieben
Reddit-Nutzer u/fairydreaming hat DeepSeek V4 Pro erfolgreich lokal zum Laufen gebracht — als Q4_K_M-GGUF-Datei mit einer Größe von 859 GB. Basis ist ein modifizierter CUDA-Fork von u/LegacyRemaster (selbst basierend auf u/antirez' Arbeit), der Q4_K_M-Konvertierung in llama.cpp unterstützt. Die Hardware besteht aus einem AMD EPYC Genoa 9374F mit 12 × 96 GB RAM (gesamt ~794 GB Host-RAM) sowie einer NVIDIA RTX PRO 6000 Blackwell Max-Q mit 97.247 MiB VRAM. Das Modell belegt davon ~87.766 MiB GPU-VRAM. Der Prompt-Durchsatz liegt bei 12,2 t/s, die Generationsgeschwindigkeit bei 8,6 t/s. Das Modell läuft mit dem DeepSeek-V3.2-Chat-Template und meldet sich im Test korrekt als DeepSeek-Assistent mit 1M-Kontextfenster und Wissensdatum Mai 2025. Der Beitrag verdeutlicht, dass der Betrieb solcher Frontier-Modelle lokal zwar technisch möglich, aber an extreme Hardware-Anforderungen geknüpft ist.
- Modelldatei DeepSeek-V4-Pro-Q4_K_M.gguf ist 859 GB groß
- GPU: NVIDIA RTX PRO 6000 Blackwell Max-Q, Compute Capability 12.0, 97.247 MiB VRAM
- CPU-System: AMD EPYC Genoa 9374F, 12 × 96 GB RAM (~794 GB Host-RAM genutzt)
- CUDA-Fork basiert auf Arbeiten von u/antirez und u/LegacyRemaster (llama.cpp-deepseek-v4-flash-cuda)
- Prompt: 12,2 t/s | Generation: 8,6 t/s — Modell läuft stabil ohne Anpassungen am Start
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.