SWE-rebench-Leaderboard aktualisiert: GPT-5.5, Opus 4.7, Kimi K2.6 und mehr im Vergleich

ToolsClaude GPT Gemini Qwen DeepSeek Cursor

Warum es zählt

Entwickler erhalten einen praxisnahen Vergleich aktueller Frontier-Modelle auf echten GitHub-Issues im SWE-bench-Format; der größere Task-Batch erhöht die statistische Aussagekraft gegenüber früheren monatlichen Updates.

— Lumeric Redaktion

Das SWE-rebench-Team hat nach einer längeren Pause ein umfangreiches Leaderboard-Update veröffentlicht, das den Zeitraum März bis Mai 2026 abdeckt. Statt der üblichen kleineren monatlichen Chargen wurden diesmal 110 frische Python-Aufgaben gesammelt, die aus realen GitHub-Pull-Requests stammen. Die Evaluierungsmethodik folgt dem Standard-SWE-bench-Format: Modelle lesen echte PR-Issues, bearbeiten den Quellcode und müssen die vollständige Test-Suite zum Bestehen bringen. Zu den bereits evaluierten Modellen gehören GPT-5.5, Claude Opus 4.7, Cursor Composer 2.5 und Kimi K2.6. In der nächsten Woche sollen weitere Modelle folgen, darunter Gemini Flash 3.5, DeepSeek v4 Pro und Qwen3.5-397B-A17B sowie kleinere Modelle für lokale Entwicklung. Für die Zukunft plant das Team mehrsprachige Aufgaben auf dem Leaderboard sowie häufigere, aber größere Evaluierungschargen. Nutzer können auf dem Leaderboard selbst engere Zeitfenster auswählen, um fokussiertere Vergleiche zu erhalten.

Was wir noch wissen

110 neue Python-Aufgaben aus echten GitHub-PRs, erstellt zwischen März und Mai 2026
Evaluierte Modelle u. a.: GPT-5.5, Claude Opus 4.7, Cursor Composer 2.5, Kimi K2.6
Geplante Ergänzungen: Gemini Flash 3.5, DeepSeek v4 Pro, Qwen3.5-397B-A17B sowie kleinere lokale Modelle
Nutzer können auf dem Leaderboard engere Aufgaben-Zeitfenster selbst auswählen
Zukünftig: mehrsprachige Tasks und größere, aber weniger häufige Evaluierungschargen geplant

Quelle lesenreddit.com

Evals Benchmarks Coding Assistenten Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

SWE-rebench-Leaderboard aktualisiert: GPT-5.5, Opus 4.7, Kimi K2.6 und mehr im Vergleich

ToolsClaude GPT Gemini Qwen DeepSeek Cursor

CompaniesDeepSeek

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

110 neue Python-Aufgaben aus echten GitHub-PRs, erstellt zwischen März und Mai 2026
Evaluierte Modelle u. a.: GPT-5.5, Claude Opus 4.7, Cursor Composer 2.5, Kimi K2.6
Geplante Ergänzungen: Gemini Flash 3.5, DeepSeek v4 Pro, Qwen3.5-397B-A17B sowie kleinere lokale Modelle
Nutzer können auf dem Leaderboard engere Aufgaben-Zeitfenster selbst auswählen
Zukünftig: mehrsprachige Tasks und größere, aber weniger häufige Evaluierungschargen geplant

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

SWE-rebench-Leaderboard aktualisiert: GPT-5.5, Opus 4.7, Kimi K2.6 und mehr im Vergleich

Frag die KI zum Artikel

Verwandte Beiträge

SWE-rebench-Leaderboard aktualisiert: GPT-5.5, Opus 4.7, Kimi K2.6 und mehr im Vergleich

Frag die KI zum Artikel

Verwandte Beiträge