wird geladen
Soohak: Mathematiker-kuratierter Benchmark mit 439 Aufgaben testet LLMs auf Forschungsniveau · Lumeric