Tilde Research stellt Aurora vor: Leverage-aware Optimizer behebt Muon-Neuronentodproblem

Warum es zählt

Wer Muon für LLM-Pretraining einsetzt, riskiert stille Kapazitätsverluste durch dauerhaft tote MLP-Neuronen – Aurora bietet einen direkten Drop-in-Ansatz, der dieses Problem adressiert und dabei auf einem 1,1-Milliarden-Parameter-Modell validiert wurde.

— Lumeric Redaktion

Forscher bei Tilde Research haben mit Aurora einen neuen Optimizer für das Training neuronaler Netze vorgestellt, der einen bislang wenig beachteten Strukturfehler im populären Muon-Optimizer korrigiert. Muon, der in letzter Zeit als effiziente Alternative zu AdamW für LLM-Pretraining an Bedeutung gewann, führt demnach dazu, dass ein signifikanter Anteil der Neuronen in MLP-Schichten während des Trainings „stirbt" und dauerhaft inaktiv bleibt. Dieser Effekt geschieht still und ohne offensichtliche Warnsignale in den Trainingsmetriken. Aurora begegnet diesem Problem durch einen sogenannten leverage-aware Ansatz, der die Gradientenaktualisierungen so anpasst, dass Neuronen gleichmäßiger genutzt werden. Als Beleg präsentiert Tilde Research ein Pretraining-Experiment mit 1,1 Milliarden Parametern sowie ein neues State-of-the-art-Ergebnis auf einem nicht näher genannten Benchmark. Details zu Architektur, genutzten Benchmarks und Vergleichsmodellen gehen über den verfügbaren Auszug hinaus.

Quelle lesenmarktechpost.com

Foundation Modelle Post Training Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Tilde Research stellt Aurora vor: Leverage-aware Optimizer behebt Muon-Neuronentodproblem

Warum es zählt

— Lumeric Redaktion

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Tilde Research stellt Aurora vor: Leverage-aware Optimizer behebt Muon-Neuronentodproblem

Frag die KI zum Artikel

Verwandte Beiträge

Tilde Research stellt Aurora vor: Leverage-aware Optimizer behebt Muon-Neuronentodproblem

Frag die KI zum Artikel

Verwandte Beiträge