DeepSeek V4 Pro als Q4_K_M lokal auf EPYC-Workstation betrieben

Warum es zählt

Das Setup zeigt, dass DeepSeek V4 Pro mit Q4_K_M-Quantisierung auf Consumer-naher Hardware lauffähig ist — vorausgesetzt massive RAM-Kapazität (~794 GB Host-RAM) und eine Blackwell-GPU mit ~97 GB VRAM sind vorhanden. Der CUDA-Fork von antirez/LegacyRemaster ermöglicht den Betrieb ohne offizielle Unterstützung.

— Lumeric Redaktion

Reddit-Nutzer u/fairydreaming hat DeepSeek V4 Pro erfolgreich lokal zum Laufen gebracht — als Q4_K_M-GGUF-Datei mit einer Größe von 859 GB. Basis ist ein modifizierter CUDA-Fork von u/LegacyRemaster (selbst basierend auf u/antirez' Arbeit), der Q4_K_M-Konvertierung in llama.cpp unterstützt. Die Hardware besteht aus einem AMD EPYC Genoa 9374F mit 12 × 96 GB RAM (gesamt ~794 GB Host-RAM) sowie einer NVIDIA RTX PRO 6000 Blackwell Max-Q mit 97.247 MiB VRAM. Das Modell belegt davon ~87.766 MiB GPU-VRAM. Der Prompt-Durchsatz liegt bei 12,2 t/s, die Generationsgeschwindigkeit bei 8,6 t/s. Das Modell läuft mit dem DeepSeek-V3.2-Chat-Template und meldet sich im Test korrekt als DeepSeek-Assistent mit 1M-Kontextfenster und Wissensdatum Mai 2025. Der Beitrag verdeutlicht, dass der Betrieb solcher Frontier-Modelle lokal zwar technisch möglich, aber an extreme Hardware-Anforderungen geknüpft ist.

Was wir noch wissen

Modelldatei DeepSeek-V4-Pro-Q4_K_M.gguf ist 859 GB groß
GPU: NVIDIA RTX PRO 6000 Blackwell Max-Q, Compute Capability 12.0, 97.247 MiB VRAM
CPU-System: AMD EPYC Genoa 9374F, 12 × 96 GB RAM (~794 GB Host-RAM genutzt)
CUDA-Fork basiert auf Arbeiten von u/antirez und u/LegacyRemaster (llama.cpp-deepseek-v4-flash-cuda)
Prompt: 12,2 t/s | Generation: 8,6 t/s — Modell läuft stabil ohne Anpassungen am Start

Quelle lesenreddit.com

Foundation Modelle Open Source Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

DeepSeek V4 Pro als Q4_K_M lokal auf EPYC-Workstation betrieben

ToolsNVIDIA Hardware DeepSeek Llama

CompaniesDeepSeek NVIDIA AMD

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Modelldatei DeepSeek-V4-Pro-Q4_K_M.gguf ist 859 GB groß
GPU: NVIDIA RTX PRO 6000 Blackwell Max-Q, Compute Capability 12.0, 97.247 MiB VRAM
CPU-System: AMD EPYC Genoa 9374F, 12 × 96 GB RAM (~794 GB Host-RAM genutzt)
CUDA-Fork basiert auf Arbeiten von u/antirez und u/LegacyRemaster (llama.cpp-deepseek-v4-flash-cuda)
Prompt: 12,2 t/s | Generation: 8,6 t/s — Modell läuft stabil ohne Anpassungen am Start

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

DeepSeek V4 Pro als Q4_K_M lokal auf EPYC-Workstation betrieben

Frag die KI zum Artikel

Verwandte Beiträge

DeepSeek V4 Pro als Q4_K_M lokal auf EPYC-Workstation betrieben

Frag die KI zum Artikel

Verwandte Beiträge