wird geladen
GRPO-Analyse: Effektiver Gradientenrang ≈ 2 unabhängig von Gruppengröße · Lumeric