wird geladen
Nichtlinearität beim Learning-Rate-Scaling für LLM-Training entdeckt · Lumeric