DeepSeek V4 Pro auf Heim-Hardware: ~192 t/s Prompt-Durchsatz mit llama.cpp
CompaniesDeepSeek
Warum es zählt
Der Post zeigt konkrete Inferenzwerte für Full-Weight-Betrieb von DeepSeek V4 Pro zu Hause und benennt aktuelle Bugs im llama.cpp-Mainline (Speicherverschwendung, kaputtes quantisiertes KV-Cache, Prompt-Cache-Reuse). Fixes existieren als PRs, sind aber noch nicht gemergt — relevanter Hinweis für alle, die das Modell lokal einsetzen wollen.
— Lumeric Redaktion
llama-batched-bench (Prompt Processing, DeepSeek V4 Pro) · Spitzenwert
192.03%
PP 8 192 Tokens
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com14h
llama.cpp-Patch: DeepSeek V4 Flash mit 1M-Token-Kontext auf RTX 5090
- MEINUNGreddit.com3w
DeepSeek V4 Flash läuft lokal via llama.cpp – früher WIP-Support
- MEINUNGreddit.com3w
193 tok/s mit DeepSeek v4 Flash auf Hopper-GPU via vLLM-Optimierungen
- MEINUNGreddit.com2w
DeepSeek V4 Pro mit 1,6T Parametern unter Effizienz-Beschuss
DeepSeek V4 Pro auf Heim-Hardware: ~192 t/s Prompt-Durchsatz mit llama.cpp
CompaniesDeepSeek
Warum es zählt
Der Post zeigt konkrete Inferenzwerte für Full-Weight-Betrieb von DeepSeek V4 Pro zu Hause und benennt aktuelle Bugs im llama.cpp-Mainline (Speicherverschwendung, kaputtes quantisiertes KV-Cache, Prompt-Cache-Reuse). Fixes existieren als PRs, sind aber noch nicht gemergt — relevanter Hinweis für alle, die das Modell lokal einsetzen wollen.
— Lumeric Redaktion
llama-batched-bench (Prompt Processing, DeepSeek V4 Pro) · Spitzenwert
192.03%
PP 8 192 Tokens
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com14h
llama.cpp-Patch: DeepSeek V4 Flash mit 1M-Token-Kontext auf RTX 5090
- MEINUNGreddit.com3w
DeepSeek V4 Flash läuft lokal via llama.cpp – früher WIP-Support
- MEINUNGreddit.com3w
193 tok/s mit DeepSeek v4 Flash auf Hopper-GPU via vLLM-Optimierungen
- MEINUNGreddit.com2w
DeepSeek V4 Pro mit 1,6T Parametern unter Effizienz-Beschuss