wird geladen
Looped Transformers: 1/N-Residualskalierung verbessert Trainierbarkeit und Hyperparameter-Transfer · Lumeric