wird geladen
SpecBench misst Reward Hacking in Coding Agents anhand versteckter Test-Lücken · Lumeric