
CRUX: Open-World-Evaluierungen jenseits klassischer Benchmarks für Frontier-AI
Narayanan und Kapoor stellen CRUX vor – ein 17-köpfiges Forschungskonsortium, das KI-Fähigkeiten durch reale, unstrukturierte Aufgaben evaluiert. Im ersten Experiment veröffentlichte ein KI-Agent erfolgreich eine iOS-App im App Store, mit nur zwei Fehlern und Kosten von ~1.000 USD.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org6d
CRUX-Projekt: Open-World-Evaluierungen als Ergänzung zu klassischen Benchmarks
- FORSCHUNGarxiv.org3d
OpenEval: 10M Item-Antworten als Infrastruktur für faire KI-Evaluation
- FORSCHUNGarxiv.org3w
Claw-Eval: Neuer Benchmark für sichere und robuste Autonomous Agents
- FORSCHUNGarxiv.org2w
SCU-GenEval: Neues Framework fordert Paradigmenwechsel bei KI-Evaluierung

CRUX: Open-World-Evaluierungen jenseits klassischer Benchmarks für Frontier-AI
Narayanan und Kapoor stellen CRUX vor – ein 17-köpfiges Forschungskonsortium, das KI-Fähigkeiten durch reale, unstrukturierte Aufgaben evaluiert. Im ersten Experiment veröffentlichte ein KI-Agent erfolgreich eine iOS-App im App Store, mit nur zwei Fehlern und Kosten von ~1.000 USD.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org6d
CRUX-Projekt: Open-World-Evaluierungen als Ergänzung zu klassischen Benchmarks
- FORSCHUNGarxiv.org3d
OpenEval: 10M Item-Antworten als Infrastruktur für faire KI-Evaluation
- FORSCHUNGarxiv.org3w
Claw-Eval: Neuer Benchmark für sichere und robuste Autonomous Agents
- FORSCHUNGarxiv.org2w
SCU-GenEval: Neues Framework fordert Paradigmenwechsel bei KI-Evaluierung