AI-Evaluierungen werden zum neuen Compute-Engpass

ToolsNVIDIA Hardware GPT Claude Hugging Face

Warum es zählt

Teams, die Agentic-Benchmarks betreiben, müssen mit vier Größenordnungen Kostenunterschied zwischen einzelnen Benchmark-Runs rechnen; Scaffold-Wahl und Token-Budget sind dabei erstrangige Kostentreiber, nicht Modellgröße allein. Kompressionstechniken aus der statischen Benchmark-Ära greifen bei Agenten-Evals kaum noch.

— Lumeric Redaktion

Der Hugging Face Blog analysiert, wie KI-Evaluierungen – insbesondere für agentenbasierte Systeme – zur eigenständigen Compute-Kostenstelle heranwachsen. Das Holistic Agent Leaderboard (HAL, Kapoor et al., ICLR 2026) gibt den bisher präzisesten öffentlichen Einblick: 40.000 USD für 21.730 Rollouts über 9 Modelle und 9 Benchmarks. Eine unabhängige Reproduktion durch Ndzomga kommt auf ähnliche 46.000 USD. Einzelne GAIA-Läufe auf Frontier-Modellen kosten bis zu 2.829 USD vor Caching. Die Kosten variieren dabei um vier Größenordnungen zwischen verschiedenen HAL-Tasks – ein wesentlicher Treiber ist die Scaffold-Wahl: Exgentic dokumentierte einen 33-fachen Kostenunterschied bei identischen Aufgaben je nach gewähltem Scaffold. Höhere Ausgaben korrelieren nicht zuverlässig mit besseren Ergebnissen: Auf Online Mind2Web erzielte SeeAct mit GPT-5 Medium 42 % Accuracy für 171 USD, während Browser-Use mit Claude Sonnet 4 für 1.577 USD nur 40 % erreichte. In der statischen Benchmark-Ära halfen Kompressionsmethoden wie tinyBenchmarks (MMLU von 14.000 auf 100 Items) oder Flash-HELM (100–200-fache Compute-Reduktion bei gleichem Ranking). Bei Agenten-Evals greifen diese Tricks jedoch kaum – die Ergebnisse sind rauschbehaftet, scaffold-sensitiv und nur begrenzt komprimierbar. Für wissenschaftliches ML kommt hinzu: The Well benötigt rund 960 H100-Stunden, um eine neue Architektur zu evaluieren, und 3.840 H100-Stunden für einen vollständigen Vier-Baseline-Sweep.

Quelle lesenhuggingface.co

$40.000 / 21.730 Rollouts

HAL-Gesamtkosten über 9 Modelle & 9 Benchmarks

Evals Benchmarks Agents Inferenz Infra