Claude Opus 4.5 führt SWE-bench Verified mit 74,3 % an
Der aktuelle verifizierte Lauf bringt Anthropic vor GPT-5 (71,8 %) und Gemini 2.5 Ultra (69,4 %). Alle drei Modelle liegen jetzt innerhalb von fünf Punkten — der Abstand schrumpft mit jedem Zyklus.
SWE-bench Verified · Spitzenwert
74.3%
Claude Opus 4.5
Warum es zählt
Benchmarks clustern, weil die Post-Training-Rezepte konvergieren. Der entscheidende Unterschied 2026 sind die Inferenzkosten pro gelöstem Issue — nicht der Schlagzeilen-Score.
— Lumeric Redaktion
BenchmarksAnthropicCoding
Lumeric AI fragen
QUELLEN-GESTÜTZT