wird geladen
AARRI-Bench: Neuer Benchmark testet LLM-Agenten als wissenschaftliche Forscher · Lumeric