Token AI stellt STAM vor: Adaptiver Optimizer soll AdamW ablösen

Warum es zählt

STAMLite benötigt nur ~50 % des GPU-Speicherbedarfs von AdamW und könnte damit ein praktischer Drop-in-Ersatz für ressourcenbeschränkte LLM-Trainings sein. Die Ergebnisse stammen bisher aus einem Reddit-Beitrag ohne Peer-Review-Status.

— Lumeric Redaktion

Das Paper „Stable Training with Adaptive Momentum" (STAM) von Token AI schlägt einen neuen Optimizer vor, der klassische Verfahren wie Adam, AdamW und LAMB in zentralen Schwachstellen verbessern soll. Kernproblem bei Adam ist ein festes Beta1, das veralteten Impuls mitschleppt und das Training in falscher Richtung fortsetzt. STAM misst die Differenz zwischen aktuellem Gradienten und vorherigem Momentum (g – m): Ist sie groß, wird Beta1 adaptiv reduziert, was instabile Phasen stabilisiert. Zusätzlich korrigiert STAM das erste Momentum selbst, wenn die Trainingsrichtung falsch wird – ein Problem, das bei SGD mit festem Momentum chronisch auftritt. Die leichtere Variante STAMLite ist als direkter AdamW-Ersatz konzipiert: Beta1 ist dynamisch (weniger Momentum bei verrauschten Gradienten, mehr bei stabilen), und der Optimizer-State-Speicherbedarf liegt bei nur ~1× der Parametergröße statt ~2× bei AdamW. Im Benchmark „Long-Horizon Non-Stationary MLP" erreicht STAM 0,97 Accuracy und 0,09 Loss – gleichauf mit NAdam. STAMLite erreicht im Hyperparameter-Sweep 0,61 Accuracy. Der Beitrag stammt von Reddit-Nutzer assemsabryy, der nach eigenen Angaben bereits ein LLM-Training mit STAM durchführt. Das Paper ist auf tokenai.cloud/research/stam abrufbar, ein Peer-Review ist nicht bestätigt.

Quelle lesenreddit.com

Long-Horizon Non-Stationary MLP (Accuracy) · Spitzenwert

0.97%

STAM

Foundation Modelle Post Training Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Token AI stellt STAM vor: Adaptiver Optimizer soll AdamW ablösen

Warum es zählt

— Lumeric Redaktion

Long-Horizon Non-Stationary MLP (Accuracy) · Spitzenwert

0.97%

STAM

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Token AI stellt STAM vor: Adaptiver Optimizer soll AdamW ablösen

Frag die KI zum Artikel

Verwandte Beiträge

Token AI stellt STAM vor: Adaptiver Optimizer soll AdamW ablösen

Frag die KI zum Artikel

Verwandte Beiträge