ITBench-AA: Frontier-Modelle scheitern unter 50% bei Enterprise-IT-Agenten-Benchmark

Warum es zählt

Kein aktuelles Frontier-Modell erreicht 50% auf realen SRE-Kubernetes-Szenarien — ITBench-AA ist damit einer der am wenigsten gesättigten agentischen Benchmarks. Entwickler erkennen, dass längere Agenten-Trajektorien keine höhere Genauigkeit garantieren und Open-Weights-Modelle wie Gemma 4 31B ein besseres Kosten-Leistungs-Verhältnis bieten.

— Lumeric Redaktion

ITBench-AA ist ein gemeinsamer Benchmark von Artificial Analysis und IBM Research, der auf dem von IBM entwickelten ITBench-Datensatz basiert. Er bewertet Sprachmodelle erstmals auf agentischen Enterprise-IT-Aufgaben, beginnend mit Site Reliability Engineering (SRE). Die 59 SRE-Aufgaben simulieren Kubernetes-Incidents: Modelle erhalten Snapshots mit Alerts, Traces, Logs, Metriken und Anwendungstopologie und müssen die minimale Menge unabhängiger Root-Cause-Entitäten identifizieren. Die Auswertung erfolgt über einen Stirrup-Harness mit Shell-Zugang zu einer Sandbox, maximal 100 Turns pro Aufgabe und 3 Wiederholungen. Gewertet wird „Average Precision at Full Recall": Wer auch nur eine Root-Cause verfehlt, erhält 0,0 für diesen Durchlauf. Bemerkenswert: Mehr Turns bedeuten nicht bessere Ergebnisse. Gemini 3.1 Pro Preview benötigt im Schnitt 83 Turns und erzielt nur 30%, während Gemma 4 31B mit 58 Turns 37% erreicht – bei einem Bruchteil der Kosten (0,14 $ vs. 2,23 $ pro Aufgabe). Claude Opus 4.7 führt das Leaderboard mit 47% an, ist aber mit 5,38 $ pro Aufgabe das teuerste Modell. Künftig soll der Benchmark um FinOps- und CISO-Aufgaben erweitert werden.

Quelle lesenhuggingface.co

ITBench-AA SRE · Spitzenwert

47%

Claude Opus 4.7 (Adaptive, Max)

Evals Benchmarks Agents Enterprise Adoption

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

ITBench-AA: Frontier-Modelle scheitern unter 50% bei Enterprise-IT-Agenten-Benchmark

ToolsClaude GPT Gemini Qwen DeepSeek

CompaniesDeepSeek

Warum es zählt

— Lumeric Redaktion

ITBench-AA SRE · Spitzenwert

47%

Claude Opus 4.7 (Adaptive, Max)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

ITBench-AA: Frontier-Modelle scheitern unter 50% bei Enterprise-IT-Agenten-Benchmark

Frag die KI zum Artikel

Verwandte Beiträge

ITBench-AA: Frontier-Modelle scheitern unter 50% bei Enterprise-IT-Agenten-Benchmark

Frag die KI zum Artikel

Verwandte Beiträge