wird geladen
Nexus-Optimizer verbessert Downstream-Generalisierung bei gleichem Pretraining-Loss · Lumeric