
ITBench-AA: Frontier-Modelle scheitern unter 50% bei Enterprise-IT-Agenten-Benchmark
ITBench-AA ist ein gemeinsamer Benchmark von Artificial Analysis und IBM Research, der auf dem von IBM entwickelten ITBench-Datensatz basiert. Er bewertet Sprachmodelle erstmals auf agentischen Enterprise-IT-Aufgaben, beginnend mit Site Reliability Engineering (SRE). Die 59 SRE-Aufgaben simulieren Kubernetes-Incidents: Modelle erhalten Snapshots mit Alerts, Traces, Logs, Metriken und Anwendungstopologie und müssen die minimale Menge unabhängiger Root-Cause-Entitäten identifizieren. Die Auswertung erfolgt über einen Stirrup-Harness mit Shell-Zugang zu einer Sandbox, maximal 100 Turns pro Aufgabe und 3 Wiederholungen. Gewertet wird „Average Precision at Full Recall": Wer auch nur eine Root-Cause verfehlt, erhält 0,0 für diesen Durchlauf. Bemerkenswert: Mehr Turns bedeuten nicht bessere Ergebnisse. Gemini 3.1 Pro Preview benötigt im Schnitt 83 Turns und erzielt nur 30%, während Gemma 4 31B mit 58 Turns 37% erreicht – bei einem Bruchteil der Kosten (0,14 $ vs. 2,23 $ pro Aufgabe). Claude Opus 4.7 führt das Leaderboard mit 47% an, ist aber mit 5,38 $ pro Aufgabe das teuerste Modell. Künftig soll der Benchmark um FinOps- und CISO-Aufgaben erweitert werden.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge

ITBench-AA: Frontier-Modelle scheitern unter 50% bei Enterprise-IT-Agenten-Benchmark
ITBench-AA ist ein gemeinsamer Benchmark von Artificial Analysis und IBM Research, der auf dem von IBM entwickelten ITBench-Datensatz basiert. Er bewertet Sprachmodelle erstmals auf agentischen Enterprise-IT-Aufgaben, beginnend mit Site Reliability Engineering (SRE). Die 59 SRE-Aufgaben simulieren Kubernetes-Incidents: Modelle erhalten Snapshots mit Alerts, Traces, Logs, Metriken und Anwendungstopologie und müssen die minimale Menge unabhängiger Root-Cause-Entitäten identifizieren. Die Auswertung erfolgt über einen Stirrup-Harness mit Shell-Zugang zu einer Sandbox, maximal 100 Turns pro Aufgabe und 3 Wiederholungen. Gewertet wird „Average Precision at Full Recall": Wer auch nur eine Root-Cause verfehlt, erhält 0,0 für diesen Durchlauf. Bemerkenswert: Mehr Turns bedeuten nicht bessere Ergebnisse. Gemini 3.1 Pro Preview benötigt im Schnitt 83 Turns und erzielt nur 30%, während Gemma 4 31B mit 58 Turns 37% erreicht – bei einem Bruchteil der Kosten (0,14 $ vs. 2,23 $ pro Aufgabe). Claude Opus 4.7 führt das Leaderboard mit 47% an, ist aber mit 5,38 $ pro Aufgabe das teuerste Modell. Künftig soll der Benchmark um FinOps- und CISO-Aufgaben erweitert werden.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.