
SGD's Frequenz-Bias bei Token-Verteilungen – und wie Adam ihn behebt
Moderne Sprachmodelle trainieren auf Daten mit stark ungleichmäßigen Token-Häufigkeiten: Wenige hochfrequente Wörter dominieren nahezu jeden Satz, während viele semantisch bedeutsame, seltene Token nur sporadisch auftreten. Beim klassischen Stochastic Gradient Descent (SGD) führt dies zu einem strukturellen Problem – Parameter, die mit häufigen Token verknüpft sind, werden bei jedem Batch aktualisiert und konvergieren schnell, während Parameter seltener Token über hunderte Schritte hinweg kaum Gradienten empfangen. Dieses sogenannte Frequenz-Bias verlangsamt das Lernen seltener Konzepte erheblich und kann die Modellqualität in Long-Tail-Bereichen beeinträchtigen. Der Adam-Optimizer adressiert dieses Problem durch adaptive Lernraten: Für jeden Parameter wird eine individuelle Schrittweite berechnet, die auf dem historischen Gradienten-Quadratmittel basiert. Parameter mit bislang wenigen Updates erhalten dadurch automatisch größere Lernraten – ein Mechanismus, der dem Frequenz-Bias direkt entgegenwirkt. Der Artikel aus MarkTechPost beleuchtet diesen Zusammenhang konzeptuell und erklärt, warum die Wahl des Optimizers bei LLM-Training keine rein technische Nebensache ist, sondern die Repräsentationsqualität seltener Token fundamental beeinflusst.
- SGD behandelt alle Parameter mit gleicher Lernrate – unabhängig von der Häufigkeit der zugehörigen Token.
- Seltene Token können bei SGD über hunderte Iterationen ohne nennenswerte Gradient-Updates bleiben.
- Adam berechnet pro Parameter adaptive Lernraten auf Basis des quadratischen Gradientenmittels (zweites Moment).
- Der Effekt ist besonders relevant bei LLMs mit großen Vokabularen und Pareto-verteilten Token-Häufigkeiten.
- Der Beitrag ordnet Adam als strukturelle Lösung für Frequenz-Bias ein, nicht nur als empirisch besser performenden Optimizer.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org1w
SGD holt mit Clipping zu Adam auf – nur 3,5 % Lücke beim LLaMA-1B-Pre-Training
- FORSCHUNGarxiv.org3w
Adam vs. SGD: Theoretische Analyse der Tradeoffs in nichtstatischen Optimierungsproblemen
- FORSCHUNGarxiv.org2w
Greedy Alignment Principle: Dynamische Momentum-Auswahl für SGD und Adam
- FORSCHUNGarxiv.org2w
Polyak-Schrittweiten für Schedule-Free SGD und Adam ohne Hyperparameter-Tuning

SGD's Frequenz-Bias bei Token-Verteilungen – und wie Adam ihn behebt
Moderne Sprachmodelle trainieren auf Daten mit stark ungleichmäßigen Token-Häufigkeiten: Wenige hochfrequente Wörter dominieren nahezu jeden Satz, während viele semantisch bedeutsame, seltene Token nur sporadisch auftreten. Beim klassischen Stochastic Gradient Descent (SGD) führt dies zu einem strukturellen Problem – Parameter, die mit häufigen Token verknüpft sind, werden bei jedem Batch aktualisiert und konvergieren schnell, während Parameter seltener Token über hunderte Schritte hinweg kaum Gradienten empfangen. Dieses sogenannte Frequenz-Bias verlangsamt das Lernen seltener Konzepte erheblich und kann die Modellqualität in Long-Tail-Bereichen beeinträchtigen. Der Adam-Optimizer adressiert dieses Problem durch adaptive Lernraten: Für jeden Parameter wird eine individuelle Schrittweite berechnet, die auf dem historischen Gradienten-Quadratmittel basiert. Parameter mit bislang wenigen Updates erhalten dadurch automatisch größere Lernraten – ein Mechanismus, der dem Frequenz-Bias direkt entgegenwirkt. Der Artikel aus MarkTechPost beleuchtet diesen Zusammenhang konzeptuell und erklärt, warum die Wahl des Optimizers bei LLM-Training keine rein technische Nebensache ist, sondern die Repräsentationsqualität seltener Token fundamental beeinflusst.
- SGD behandelt alle Parameter mit gleicher Lernrate – unabhängig von der Häufigkeit der zugehörigen Token.
- Seltene Token können bei SGD über hunderte Iterationen ohne nennenswerte Gradient-Updates bleiben.
- Adam berechnet pro Parameter adaptive Lernraten auf Basis des quadratischen Gradientenmittels (zweites Moment).
- Der Effekt ist besonders relevant bei LLMs mit großen Vokabularen und Pareto-verteilten Token-Häufigkeiten.
- Der Beitrag ordnet Adam als strukturelle Lösung für Frequenz-Bias ein, nicht nur als empirisch besser performenden Optimizer.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org1w
SGD holt mit Clipping zu Adam auf – nur 3,5 % Lücke beim LLaMA-1B-Pre-Training
- FORSCHUNGarxiv.org3w
Adam vs. SGD: Theoretische Analyse der Tradeoffs in nichtstatischen Optimierungsproblemen
- FORSCHUNGarxiv.org2w
Greedy Alignment Principle: Dynamische Momentum-Auswahl für SGD und Adam
- FORSCHUNGarxiv.org2w
Polyak-Schrittweiten für Schedule-Free SGD und Adam ohne Hyperparameter-Tuning