★ Begriff· Evaluation
HumanEval
Code-Benchmark: 164 Python-Aufgaben mit Unit-Tests. Misst Pass@1-Rate (erste Antwort korrekt). Frontier-Models 2026 bei >95% — Saturation, daher Ablöse durch LiveCodeBench, SWE-Bench.
Verwandte Tools
Auch bekannt als
human eval · swe-bench · livecodebench
Aktivität
12
Mentions in den letzten 7 Tagen
4 Wochen
⚡neu · 12×
Zuletzt erwähnt in
- Poison-with-Style: Codestil als versteckter Trigger für CLLM-Poisoning-Angriffe2026-05-28
- Semantic Flow Regularization verhindert Cross-Style Collapse bei LLM-Finetuning2026-05-28
- TRAJEVAL deckt Coherence Collapse als Hauptversagen von Code-Agenten auf2026-05-28
- Studie analysiert fünf APR-Agenten auf 500 SWE-bench-Aufgaben2026-05-28
- Poolside veröffentlicht Laguna M.1 und XS.2: MoE-Modelle für agentisches Coding2026-05-28