Token AI stellt STAM vor: Adaptiver Optimizer soll AdamW ablösen
Das Paper „Stable Training with Adaptive Momentum" (STAM) von Token AI schlägt einen neuen Optimizer vor, der klassische Verfahren wie Adam, AdamW und LAMB in zentralen Schwachstellen verbessern soll. Kernproblem bei Adam ist ein festes Beta1, das veralteten Impuls mitschleppt und das Training in falscher Richtung fortsetzt. STAM misst die Differenz zwischen aktuellem Gradienten und vorherigem Momentum (g – m): Ist sie groß, wird Beta1 adaptiv reduziert, was instabile Phasen stabilisiert. Zusätzlich korrigiert STAM das erste Momentum selbst, wenn die Trainingsrichtung falsch wird – ein Problem, das bei SGD mit festem Momentum chronisch auftritt. Die leichtere Variante STAMLite ist als direkter AdamW-Ersatz konzipiert: Beta1 ist dynamisch (weniger Momentum bei verrauschten Gradienten, mehr bei stabilen), und der Optimizer-State-Speicherbedarf liegt bei nur ~1× der Parametergröße statt ~2× bei AdamW. Im Benchmark „Long-Horizon Non-Stationary MLP" erreicht STAM 0,97 Accuracy und 0,09 Loss – gleichauf mit NAdam. STAMLite erreicht im Hyperparameter-Sweep 0,61 Accuracy. Der Beitrag stammt von Reddit-Nutzer assemsabryy, der nach eigenen Angaben bereits ein LLM-Training mit STAM durchführt. Das Paper ist auf tokenai.cloud/research/stam abrufbar, ein Peer-Review ist nicht bestätigt.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Token AI stellt STAM vor: Adaptiver Optimizer soll AdamW ablösen
Das Paper „Stable Training with Adaptive Momentum" (STAM) von Token AI schlägt einen neuen Optimizer vor, der klassische Verfahren wie Adam, AdamW und LAMB in zentralen Schwachstellen verbessern soll. Kernproblem bei Adam ist ein festes Beta1, das veralteten Impuls mitschleppt und das Training in falscher Richtung fortsetzt. STAM misst die Differenz zwischen aktuellem Gradienten und vorherigem Momentum (g – m): Ist sie groß, wird Beta1 adaptiv reduziert, was instabile Phasen stabilisiert. Zusätzlich korrigiert STAM das erste Momentum selbst, wenn die Trainingsrichtung falsch wird – ein Problem, das bei SGD mit festem Momentum chronisch auftritt. Die leichtere Variante STAMLite ist als direkter AdamW-Ersatz konzipiert: Beta1 ist dynamisch (weniger Momentum bei verrauschten Gradienten, mehr bei stabilen), und der Optimizer-State-Speicherbedarf liegt bei nur ~1× der Parametergröße statt ~2× bei AdamW. Im Benchmark „Long-Horizon Non-Stationary MLP" erreicht STAM 0,97 Accuracy und 0,09 Loss – gleichauf mit NAdam. STAMLite erreicht im Hyperparameter-Sweep 0,61 Accuracy. Der Beitrag stammt von Reddit-Nutzer assemsabryy, der nach eigenen Angaben bereits ein LLM-Training mit STAM durchführt. Das Paper ist auf tokenai.cloud/research/stam abrufbar, ein Peer-Review ist nicht bestätigt.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.