★ Company· Foundation-Lab· CN· gegründet 2023

DeepSeek

Chinesisches Open-Source-Foundation-Lab.

State of DeepSeek

★ verifiziert

DeepSeek V4 Flash und DSpark dominieren lokale Open-Source-Inferenz-Debatte

Position

DeepSeek bleibt das meistzitierte chinesische Open-Weight-Foundation-Lab im westlichen Community-Diskurs. Das Labor veröffentlicht keine öffentlichen Bewertungszahlen, agiert ohne bekannte externe Finanzierungsrunden und positioniert sich primär über technische Veröffentlichungen. Die Mixture-of-Experts-Architektur von V4 – mit 284 Milliarden Gesamtparametern, von denen pro Token nur ein Bruchteil aktiv ist – macht das Modell zu einer ernsthaften Kostenalternative zu proprietären Frontier-Modellen: Together AI beziffert den Vorteil von Open-Weight-Modellen wie DeepSeek gegenüber proprietären Anbietern auf 6× bis 20× niedrigere Inferenzkosten. Wettbewerbsvergleiche aus dem Community-Umfeld bestätigen diese Einschätzung konsistent. Exportbeschränkungen der USA gegenüber China erhöhen den Druck auf hardwareeffiziente Inferenzarchitekturen – DSpark ist in diesem Kontext zu lesen.

Wichtigste Updates

DeepSeek hat mit DSpark eine neue Technik zur Beschleunigung der Inferenz vorgestellt, die laut Community-Berichten die Antwortgeschwindigkeit um bis zu 85 Prozent steigert und dabei als neuer State-of-the-Art-Pfad für Single-GPU Speculative Decoding gilt. DSpark ermöglicht höheren Durchsatz auf weniger leistungsstarker Hardware – ein strategisch relevanter Schritt angesichts anhaltender US-Exportbeschränkungen für High-End-Chips nach China. Ein separater Reddit-Post bezeichnete DSpark zudem als schneller als bestehende MTP-Ansätze, lieferte jedoch keine verifizierbaren technischen Details.

Mit DeepSeek V4 Flash wurde ein 284-Milliarden-Parameter-MoE-Modell veröffentlicht, das lokale Community sofort in GGUF-Formate quantisierte. Bartowski veröffentlichte eine GGUF-Quantisierung, während konkurrierende Quantisierungen von Antirez (imatrix) parallele Vergleichsdaten liefern. Technische Diskussionen um korrekte Formatklassifikation – insbesondere die ungeklärte Frage, ob V4 Flash als MXFP4 einzustufen sei – weisen auf noch uneinheitliche Metadaten-Dokumentation hin.

Auf Hardwareseite demonstrierte die Community, dass DeepSeek V4 Flash mit einem llama.cpp-Patch auf einer einzelnen RTX 5090 mit bis zu einer Million Token Kontext betrieben werden kann, mit Prefill-Raten von bis zu 263 Tokens pro Sekunde bei 256K Kontext. Gleichzeitig wurden für V4 Pro auf Heim-Hardware Prompt-Durchsatzzahlen von rund 192 Tokens pro Sekunde gemessen – verbunden mit bekannten Bugs in llama.cpp-Mainline bezüglich Speicherverschwendung und quantisiertem KV-Cache, für die Fixes als offene Pull Requests vorliegen.

Hardware-Anbieter NVIDIA, AMD und Intel quantisieren DeepSeek-V4-Pro aktiv in eigene Formate, was auf breites industrielles Interesse an der Modellreihe hinweist und AI-Buildern hardwareoptimierte Varianten für lokale Inferenz verschafft.

Was zu erwarten

Aus den Quell-Posts ergeben sich mehrere konkrete Hinweise: Für DSpark stehen offizielle technische Angaben noch aus – sobald ein Paper oder eine offizielle Dokumentation erscheint, lässt sich die Relevanz für Produktions-Inferenz fundierter beurteilen. Für die llama.cpp-Integration von V4 Pro sind Fixes für bekannte Bugs als offene Pull Requests angekündigt, deren Merge einen stabileren Heim-Betrieb ermöglichen würde. Im Quantisierungs-Umfeld wird ein direkter Qualitätsvergleich zwischen Bartowski- und Antirez-imatrix-Varianten von V4 Flash erwartet. Unklar bleibt, ob DeepSeek die MXFP4-Klassifikationsdiskrepanz in offiziellen Metadaten adressiert. GLM-5.2 mit DSpark-Integration wird bereits als Open-Source-Alternative in Multi-Modell-Setups gehandelt – ein Hinweis, dass DSpark über DeepSeeks eigene Modellreihe hinaus Verbreitung finden könnte.

Kuratiert von Gregor Scheiwiller · 6. Juli 2026 · Methodologie

Top-Tools rund um DeepSeek

DeepSeek587×GPT207×Qwen207×Claude172×Llama122×Gemini73×

Auch erwähnt: weitere Unternehmen

OpenAI85×Anthropic65×Hugging Face50×NVIDIA45×Google DeepMind

Archiv

Juni 2026 Mai 2026 April 2026