
AI-Evaluierungen werden zum neuen Compute-Engpass
Der Hugging Face Blog analysiert, wie KI-Evaluierungen – insbesondere für agentenbasierte Systeme – zur eigenständigen Compute-Kostenstelle heranwachsen. Das Holistic Agent Leaderboard (HAL, Kapoor et al., ICLR 2026) gibt den bisher präzisesten öffentlichen Einblick: 40.000 USD für 21.730 Rollouts über 9 Modelle und 9 Benchmarks. Eine unabhängige Reproduktion durch Ndzomga kommt auf ähnliche 46.000 USD. Einzelne GAIA-Läufe auf Frontier-Modellen kosten bis zu 2.829 USD vor Caching. Die Kosten variieren dabei um vier Größenordnungen zwischen verschiedenen HAL-Tasks – ein wesentlicher Treiber ist die Scaffold-Wahl: Exgentic dokumentierte einen 33-fachen Kostenunterschied bei identischen Aufgaben je nach gewähltem Scaffold. Höhere Ausgaben korrelieren nicht zuverlässig mit besseren Ergebnissen: Auf Online Mind2Web erzielte SeeAct mit GPT-5 Medium 42 % Accuracy für 171 USD, während Browser-Use mit Claude Sonnet 4 für 1.577 USD nur 40 % erreichte. In der statischen Benchmark-Ära halfen Kompressionsmethoden wie tinyBenchmarks (MMLU von 14.000 auf 100 Items) oder Flash-HELM (100–200-fache Compute-Reduktion bei gleichem Ranking). Bei Agenten-Evals greifen diese Tricks jedoch kaum – die Ergebnisse sind rauschbehaftet, scaffold-sensitiv und nur begrenzt komprimierbar. Für wissenschaftliches ML kommt hinzu: The Well benötigt rund 960 H100-Stunden, um eine neue Architektur zu evaluieren, und 3.840 H100-Stunden für einen vollständigen Vier-Baseline-Sweep.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge

AI-Evaluierungen werden zum neuen Compute-Engpass
Der Hugging Face Blog analysiert, wie KI-Evaluierungen – insbesondere für agentenbasierte Systeme – zur eigenständigen Compute-Kostenstelle heranwachsen. Das Holistic Agent Leaderboard (HAL, Kapoor et al., ICLR 2026) gibt den bisher präzisesten öffentlichen Einblick: 40.000 USD für 21.730 Rollouts über 9 Modelle und 9 Benchmarks. Eine unabhängige Reproduktion durch Ndzomga kommt auf ähnliche 46.000 USD. Einzelne GAIA-Läufe auf Frontier-Modellen kosten bis zu 2.829 USD vor Caching. Die Kosten variieren dabei um vier Größenordnungen zwischen verschiedenen HAL-Tasks – ein wesentlicher Treiber ist die Scaffold-Wahl: Exgentic dokumentierte einen 33-fachen Kostenunterschied bei identischen Aufgaben je nach gewähltem Scaffold. Höhere Ausgaben korrelieren nicht zuverlässig mit besseren Ergebnissen: Auf Online Mind2Web erzielte SeeAct mit GPT-5 Medium 42 % Accuracy für 171 USD, während Browser-Use mit Claude Sonnet 4 für 1.577 USD nur 40 % erreichte. In der statischen Benchmark-Ära halfen Kompressionsmethoden wie tinyBenchmarks (MMLU von 14.000 auf 100 Items) oder Flash-HELM (100–200-fache Compute-Reduktion bei gleichem Ranking). Bei Agenten-Evals greifen diese Tricks jedoch kaum – die Ergebnisse sind rauschbehaftet, scaffold-sensitiv und nur begrenzt komprimierbar. Für wissenschaftliches ML kommt hinzu: The Well benötigt rund 960 H100-Stunden, um eine neue Architektur zu evaluieren, und 3.840 H100-Stunden für einen vollständigen Vier-Baseline-Sweep.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.