DeepSWE-Benchmark: DeepSeek V4 Pro löst nur 8 % der Coding-Tasks
Auf r/LocalLLaMA sorgt ein Screenshot vom DeepSWE-Benchmark (deepswe.datacurve.ai) für Diskussion: DeepSeek V4 Pro soll demnach nur 8 % der Software-Engineering-Aufgaben korrekt lösen. Der Beitrag-Ersteller zeigt sich skeptisch gegenüber diesem Wert, da er das Modell in OpenCode einsetzt und es dort subjektiv auf Augenhöhe mit Anthropics Sonnet 4.6 empfindet. DeepSWE ist ein spezialisierter Eval, der Coding-Agenten auf realen Repository-Aufgaben (ähnlich SWE-Bench) testet. Die Diskrepanz zwischen dem niedrigen Benchmark-Wert und der positiven Alltagserfahrung ist ein bekanntes Phänomen: Evals messen unter kontrollierten, oft schwer automatisierbaren Bedingungen, während Nutzer in interaktiven Szenarien häufig bessere Ergebnisse wahrnehmen. Belastbare Vergleichswerte anderer Modelle auf DeepSWE gehen aus dem Post nicht hervor; der Screenshot auf datacurve.ai deutet aber auf eine Rangliste hin.
- DeepSWE-Benchmark-Plattform: deepswe.datacurve.ai
- Nutzer setzt DeepSeek V4 Pro über OpenCode ein und bewertet es als nahezu gleichwertig mit Sonnet 4.6
- Screenshot zeigt offenbar eine Rangliste mehrerer Modelle — konkrete Vergleichswerte anderer Systeme fehlen im Post-Text
- Frage im Titel ist offen formuliert: Authentizität des Screenshots wird nicht abschließend bestätigt
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com11h
DeepSeek v4 führt Coding-Leaderboards an, liegt aber 8 Monate hinter der Frontier
- BENCHMARKruntimewire.com3d
DeepSeek V4 Pro übertrifft GPT-5.5 Pro bei Präzision
- BENCHMARKmarktechpost.com3w
KI-Coding-Agents 2026 im Vergleich: Claude Code führt bei SWE-bench, GPT-5.5 bei Terminal-Bench
- MEINUNGreddit.com6d
DeepSWE-Benchmark-Ergebnisse als ungültig kritisiert
DeepSWE-Benchmark: DeepSeek V4 Pro löst nur 8 % der Coding-Tasks
Auf r/LocalLLaMA sorgt ein Screenshot vom DeepSWE-Benchmark (deepswe.datacurve.ai) für Diskussion: DeepSeek V4 Pro soll demnach nur 8 % der Software-Engineering-Aufgaben korrekt lösen. Der Beitrag-Ersteller zeigt sich skeptisch gegenüber diesem Wert, da er das Modell in OpenCode einsetzt und es dort subjektiv auf Augenhöhe mit Anthropics Sonnet 4.6 empfindet. DeepSWE ist ein spezialisierter Eval, der Coding-Agenten auf realen Repository-Aufgaben (ähnlich SWE-Bench) testet. Die Diskrepanz zwischen dem niedrigen Benchmark-Wert und der positiven Alltagserfahrung ist ein bekanntes Phänomen: Evals messen unter kontrollierten, oft schwer automatisierbaren Bedingungen, während Nutzer in interaktiven Szenarien häufig bessere Ergebnisse wahrnehmen. Belastbare Vergleichswerte anderer Modelle auf DeepSWE gehen aus dem Post nicht hervor; der Screenshot auf datacurve.ai deutet aber auf eine Rangliste hin.
- DeepSWE-Benchmark-Plattform: deepswe.datacurve.ai
- Nutzer setzt DeepSeek V4 Pro über OpenCode ein und bewertet es als nahezu gleichwertig mit Sonnet 4.6
- Screenshot zeigt offenbar eine Rangliste mehrerer Modelle — konkrete Vergleichswerte anderer Systeme fehlen im Post-Text
- Frage im Titel ist offen formuliert: Authentizität des Screenshots wird nicht abschließend bestätigt
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com11h
DeepSeek v4 führt Coding-Leaderboards an, liegt aber 8 Monate hinter der Frontier
- BENCHMARKruntimewire.com3d
DeepSeek V4 Pro übertrifft GPT-5.5 Pro bei Präzision
- BENCHMARKmarktechpost.com3w
KI-Coding-Agents 2026 im Vergleich: Claude Code führt bei SWE-bench, GPT-5.5 bei Terminal-Bench
- MEINUNGreddit.com6d
DeepSWE-Benchmark-Ergebnisse als ungültig kritisiert