DeepSWE-Benchmark: DeepSeek V4 Pro löst nur 8 % der Coding-Tasks

Warum es zählt

Wer DeepSeek V4 Pro in Coding-Agenten wie OpenCode einsetzt, sollte den DeepSWE-Wert von 8 % kritisch einordnen: Praxiserfahrungen einzelner Nutzer weichen stark vom Benchmark ab, was auf Limitierungen des Evals oder spezifische Aufgabenprofile hinweisen kann.

— Lumeric Redaktion

Auf r/LocalLLaMA sorgt ein Screenshot vom DeepSWE-Benchmark (deepswe.datacurve.ai) für Diskussion: DeepSeek V4 Pro soll demnach nur 8 % der Software-Engineering-Aufgaben korrekt lösen. Der Beitrag-Ersteller zeigt sich skeptisch gegenüber diesem Wert, da er das Modell in OpenCode einsetzt und es dort subjektiv auf Augenhöhe mit Anthropics Sonnet 4.6 empfindet. DeepSWE ist ein spezialisierter Eval, der Coding-Agenten auf realen Repository-Aufgaben (ähnlich SWE-Bench) testet. Die Diskrepanz zwischen dem niedrigen Benchmark-Wert und der positiven Alltagserfahrung ist ein bekanntes Phänomen: Evals messen unter kontrollierten, oft schwer automatisierbaren Bedingungen, während Nutzer in interaktiven Szenarien häufig bessere Ergebnisse wahrnehmen. Belastbare Vergleichswerte anderer Modelle auf DeepSWE gehen aus dem Post nicht hervor; der Screenshot auf datacurve.ai deutet aber auf eine Rangliste hin.

Was wir noch wissen

DeepSWE-Benchmark-Plattform: deepswe.datacurve.ai
Nutzer setzt DeepSeek V4 Pro über OpenCode ein und bewertet es als nahezu gleichwertig mit Sonnet 4.6
Screenshot zeigt offenbar eine Rangliste mehrerer Modelle — konkrete Vergleichswerte anderer Systeme fehlen im Post-Text
Frage im Titel ist offen formuliert: Authentizität des Screenshots wird nicht abschließend bestätigt

Quelle lesenreddit.com

Evals Benchmarks Coding Assistenten Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

DeepSWE-Benchmark: DeepSeek V4 Pro löst nur 8 % der Coding-Tasks

ToolsClaude DeepSeek

CompaniesDeepSeek

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

DeepSWE-Benchmark-Plattform: deepswe.datacurve.ai
Nutzer setzt DeepSeek V4 Pro über OpenCode ein und bewertet es als nahezu gleichwertig mit Sonnet 4.6
Screenshot zeigt offenbar eine Rangliste mehrerer Modelle — konkrete Vergleichswerte anderer Systeme fehlen im Post-Text
Frage im Titel ist offen formuliert: Authentizität des Screenshots wird nicht abschließend bestätigt

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

DeepSWE-Benchmark: DeepSeek V4 Pro löst nur 8 % der Coding-Tasks

Frag die KI zum Artikel

Verwandte Beiträge

DeepSWE-Benchmark: DeepSeek V4 Pro löst nur 8 % der Coding-Tasks

Frag die KI zum Artikel

Verwandte Beiträge