
Tilde Research stellt Aurora vor: Leverage-aware Optimizer behebt Muon-Neuronentodproblem
Forscher bei Tilde Research haben mit Aurora einen neuen Optimizer für das Training neuronaler Netze vorgestellt, der einen bislang wenig beachteten Strukturfehler im populären Muon-Optimizer korrigiert. Muon, der in letzter Zeit als effiziente Alternative zu AdamW für LLM-Pretraining an Bedeutung gewann, führt demnach dazu, dass ein signifikanter Anteil der Neuronen in MLP-Schichten während des Trainings „stirbt" und dauerhaft inaktiv bleibt. Dieser Effekt geschieht still und ohne offensichtliche Warnsignale in den Trainingsmetriken. Aurora begegnet diesem Problem durch einen sogenannten leverage-aware Ansatz, der die Gradientenaktualisierungen so anpasst, dass Neuronen gleichmäßiger genutzt werden. Als Beleg präsentiert Tilde Research ein Pretraining-Experiment mit 1,1 Milliarden Parametern sowie ein neues State-of-the-art-Ergebnis auf einem nicht näher genannten Benchmark. Details zu Architektur, genutzten Benchmarks und Vergleichsmodellen gehen über den verfügbaren Auszug hinaus.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge

Tilde Research stellt Aurora vor: Leverage-aware Optimizer behebt Muon-Neuronentodproblem
Forscher bei Tilde Research haben mit Aurora einen neuen Optimizer für das Training neuronaler Netze vorgestellt, der einen bislang wenig beachteten Strukturfehler im populären Muon-Optimizer korrigiert. Muon, der in letzter Zeit als effiziente Alternative zu AdamW für LLM-Pretraining an Bedeutung gewann, führt demnach dazu, dass ein signifikanter Anteil der Neuronen in MLP-Schichten während des Trainings „stirbt" und dauerhaft inaktiv bleibt. Dieser Effekt geschieht still und ohne offensichtliche Warnsignale in den Trainingsmetriken. Aurora begegnet diesem Problem durch einen sogenannten leverage-aware Ansatz, der die Gradientenaktualisierungen so anpasst, dass Neuronen gleichmäßiger genutzt werden. Als Beleg präsentiert Tilde Research ein Pretraining-Experiment mit 1,1 Milliarden Parametern sowie ein neues State-of-the-art-Ergebnis auf einem nicht näher genannten Benchmark. Details zu Architektur, genutzten Benchmarks und Vergleichsmodellen gehen über den verfügbaren Auszug hinaus.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.