DeepSeek V4 Pro auf Heim-Hardware: ~192 t/s Prompt-Durchsatz mit llama.cpp

Warum es zählt

Der Post zeigt konkrete Inferenzwerte für Full-Weight-Betrieb von DeepSeek V4 Pro zu Hause und benennt aktuelle Bugs im llama.cpp-Mainline (Speicherverschwendung, kaputtes quantisiertes KV-Cache, Prompt-Cache-Reuse). Fixes existieren als PRs, sind aber noch nicht gemergt — relevanter Hinweis für alle, die das Modell lokal einsetzen wollen.

— Lumeric Redaktion

Quelle lesenreddit.com

llama-batched-bench (Prompt Processing, DeepSeek V4 Pro) · Spitzenwert

192.03%

PP 8 192 Tokens

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

DeepSeek V4 Pro auf Heim-Hardware: ~192 t/s Prompt-Durchsatz mit llama.cpp

ToolsDeepSeek Llama

CompaniesDeepSeek

Warum es zählt

— Lumeric Redaktion

llama-batched-bench (Prompt Processing, DeepSeek V4 Pro) · Spitzenwert

192.03%

PP 8 192 Tokens

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

DeepSeek V4 Pro auf Heim-Hardware: ~192 t/s Prompt-Durchsatz mit llama.cpp

Frag die KI zum Artikel

Verwandte Beiträge

DeepSeek V4 Pro auf Heim-Hardware: ~192 t/s Prompt-Durchsatz mit llama.cpp

Frag die KI zum Artikel

Verwandte Beiträge