wird geladen
Outer-Momentum-Restarting verbessert DiLoCo-Optimierung in verteiltem LLM-Training · Lumeric