wird geladen

HumanEval — Was ist das? · Glossar · Lumeric

Feed
Digest
Lounge
Stash
Profil

HumanEval

★ Begriff· Evaluation

HumanEval

Code-Benchmark: 164 Python-Aufgaben mit Unit-Tests. Misst Pass@1-Rate (erste Antwort korrekt). Frontier-Models 2026 bei >95% — Saturation, daher Ablöse durch LiveCodeBench, SWE-Bench.

Verwandte Tools

Claude Code Cursor

Auch bekannt als

human eval · swe-bench · livecodebench

Aktivität

9

Mentions in den letzten 7 Tagen

4 Wochen

⚡neu · 9×

Zuletzt erwähnt in

Community diskutiert praxisnahe Benchmarks für Coding und Agenten-Tasks
2026-07-11
DeepSWE: Neuer Benchmark für Coding Agents mit 113 kontaminationsfreien Aufgaben
2026-07-10
Selective Left-Shift: Effizientes Code-Training für wenig verbreitete Programmiersprachen
2026-07-10
Quantisierung trifft Modellfähigkeiten unterschiedlich stark – Community-Tests zeigen Lücke
2026-07-09
SAO: Asynchrones RL-Training für LLMs mit Single-Rollout-Strategie
2026-07-09

Feed Digest Lounge Stash Profil