DeepSeek v4 führt Coding-Leaderboards an, liegt aber 8 Monate hinter der Frontier

Warum es zählt

Hohe Coding-Scores reflektieren gezielte Optimierung auf enge Benchmarks, nicht Gesamtfähigkeit. Für Agent-Workflows, die Reasoning und Tool-Calls erfordern, liefert DeepSeek v4 – vor allem in quantisierten Varianten – deutlich schwächere Ergebnisse als die Headline-Zahlen suggerieren.

— Lumeric Redaktion

Quelle lesenreddit.com

SWE-bench Verified / LiveCodeBench · Spitzenwert

80.6%

DeepSeek v4 (SWE-bench Verified)

Evals Benchmarks Foundation Modelle Agents

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

DeepSeek v4 führt Coding-Leaderboards an, liegt aber 8 Monate hinter der Frontier

ToolsGPT DeepSeek

CompaniesDeepSeek

Warum es zählt

— Lumeric Redaktion

SWE-bench Verified / LiveCodeBench · Spitzenwert

80.6%

DeepSeek v4 (SWE-bench Verified)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

DeepSeek v4 führt Coding-Leaderboards an, liegt aber 8 Monate hinter der Frontier

Frag die KI zum Artikel

Verwandte Beiträge

DeepSeek v4 führt Coding-Leaderboards an, liegt aber 8 Monate hinter der Frontier

Frag die KI zum Artikel

Verwandte Beiträge