SWE-rebench-Leaderboard aktualisiert: GPT-5.5, Opus 4.7, Kimi K2.6 und mehr im Vergleich
Das SWE-rebench-Team hat nach einer längeren Pause ein umfangreiches Leaderboard-Update veröffentlicht, das den Zeitraum März bis Mai 2026 abdeckt. Statt der üblichen kleineren monatlichen Chargen wurden diesmal 110 frische Python-Aufgaben gesammelt, die aus realen GitHub-Pull-Requests stammen. Die Evaluierungsmethodik folgt dem Standard-SWE-bench-Format: Modelle lesen echte PR-Issues, bearbeiten den Quellcode und müssen die vollständige Test-Suite zum Bestehen bringen. Zu den bereits evaluierten Modellen gehören GPT-5.5, Claude Opus 4.7, Cursor Composer 2.5 und Kimi K2.6. In der nächsten Woche sollen weitere Modelle folgen, darunter Gemini Flash 3.5, DeepSeek v4 Pro und Qwen3.5-397B-A17B sowie kleinere Modelle für lokale Entwicklung. Für die Zukunft plant das Team mehrsprachige Aufgaben auf dem Leaderboard sowie häufigere, aber größere Evaluierungschargen. Nutzer können auf dem Leaderboard selbst engere Zeitfenster auswählen, um fokussiertere Vergleiche zu erhalten.
- 110 neue Python-Aufgaben aus echten GitHub-PRs, erstellt zwischen März und Mai 2026
- Evaluierte Modelle u. a.: GPT-5.5, Claude Opus 4.7, Cursor Composer 2.5, Kimi K2.6
- Geplante Ergänzungen: Gemini Flash 3.5, DeepSeek v4 Pro, Qwen3.5-397B-A17B sowie kleinere lokale Modelle
- Nutzer können auf dem Leaderboard engere Aufgaben-Zeitfenster selbst auswählen
- Zukünftig: mehrsprachige Tasks und größere, aber weniger häufige Evaluierungschargen geplant
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHthe-decoder.com1w
Cursor Composer 2.5 erreicht Opus 4.7 und GPT-5.5 auf Benchmarks zum Bruchteil der Kosten
- FORSCHUNGarxiv.org2w
SWE Atlas: Neuer Benchmark für Coding Agents jenseits reiner Bug-Fixes
- BENCHMARKarxiv.org1w
DevBench: Realistischer LLM-Codegenerierungs-Benchmark aus echter Entwickler-Telemetrie
SWE-rebench-Leaderboard aktualisiert: GPT-5.5, Opus 4.7, Kimi K2.6 und mehr im Vergleich
Das SWE-rebench-Team hat nach einer längeren Pause ein umfangreiches Leaderboard-Update veröffentlicht, das den Zeitraum März bis Mai 2026 abdeckt. Statt der üblichen kleineren monatlichen Chargen wurden diesmal 110 frische Python-Aufgaben gesammelt, die aus realen GitHub-Pull-Requests stammen. Die Evaluierungsmethodik folgt dem Standard-SWE-bench-Format: Modelle lesen echte PR-Issues, bearbeiten den Quellcode und müssen die vollständige Test-Suite zum Bestehen bringen. Zu den bereits evaluierten Modellen gehören GPT-5.5, Claude Opus 4.7, Cursor Composer 2.5 und Kimi K2.6. In der nächsten Woche sollen weitere Modelle folgen, darunter Gemini Flash 3.5, DeepSeek v4 Pro und Qwen3.5-397B-A17B sowie kleinere Modelle für lokale Entwicklung. Für die Zukunft plant das Team mehrsprachige Aufgaben auf dem Leaderboard sowie häufigere, aber größere Evaluierungschargen. Nutzer können auf dem Leaderboard selbst engere Zeitfenster auswählen, um fokussiertere Vergleiche zu erhalten.
- 110 neue Python-Aufgaben aus echten GitHub-PRs, erstellt zwischen März und Mai 2026
- Evaluierte Modelle u. a.: GPT-5.5, Claude Opus 4.7, Cursor Composer 2.5, Kimi K2.6
- Geplante Ergänzungen: Gemini Flash 3.5, DeepSeek v4 Pro, Qwen3.5-397B-A17B sowie kleinere lokale Modelle
- Nutzer können auf dem Leaderboard engere Aufgaben-Zeitfenster selbst auswählen
- Zukünftig: mehrsprachige Tasks und größere, aber weniger häufige Evaluierungschargen geplant
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHthe-decoder.com1w
Cursor Composer 2.5 erreicht Opus 4.7 und GPT-5.5 auf Benchmarks zum Bruchteil der Kosten
- FORSCHUNGarxiv.org2w
SWE Atlas: Neuer Benchmark für Coding Agents jenseits reiner Bug-Fixes
- BENCHMARKarxiv.org1w
DevBench: Realistischer LLM-Codegenerierungs-Benchmark aus echter Entwickler-Telemetrie