Claude Opus 4.5 führt SWE-bench Verified mit 74,3 % an

Der aktuelle verifizierte Lauf bringt Anthropic vor GPT-5 (71,8 %) und Gemini 2.5 Ultra (69,4 %). Alle drei Modelle liegen jetzt innerhalb von fünf Punkten — der Abstand schrumpft mit jedem Zyklus.

SWE-bench Verified · Spitzenwert

74.3%

Claude Opus 4.5

Warum es zählt

Benchmarks clustern, weil die Post-Training-Rezepte konvergieren. Der entscheidende Unterschied 2026 sind die Inferenzkosten pro gelöstem Issue — nicht der Schlagzeilen-Score.

— Lumeric Redaktion

BenchmarksAnthropicCoding

Lumeric AI fragen

QUELLEN-GESTÜTZT