wird geladen
ROSE-Benchmark deckt Wahrnehmungs-Handlungs-Lücke in multimodalen Modellen auf · Lumeric