SFT verschlechtert Instruction-Following bei 1B- und 2B-Modellen laut IFEval
Der Reddit-Nutzer GPUburnout trainierte drei eigene Sprachmodelle mit 1B, 2B und 3B Parametern von Grund auf und wendete anschließend dieselbe SFT-Konfiguration an: SlimOrca 50K Datensatz, LoRA mit Rang 16, 1 Epoche. Die IFEval-Scores zeigen ein klares Muster: Das 1B-Modell verschlechterte sich von 20,50 auf 14,75 (−5,75 Punkte), das 2B-Modell von 21,94 auf 17,03 (−4,91 Punkte). Lediglich das 3B-Modell verbesserte sich von 23,14 auf 25,18 (+2,04 Punkte). Ein wesentlicher Unterschied im Setup: Das 3B-Modell wurde mit einer niedrigeren Lernrate von 5e-5 trainiert, während 1B und 2B mit 2e-4 trainiert wurden. Ob die Regression also auf fehlende Modellkapazität oder die zu hohe Lernrate zurückzuführen ist, bleibt offen – der Autor kündigt an, das 2B-Modell mit lr=5e-5 erneut zu trainieren. Der Beitrag löste eine Community-Diskussion darüber aus, ob IFEval-Regression nach SFT bei kleinen Modellen ein bekanntes Phänomen ist.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org4d
Full Fine-Tuning schadet Sub-300M-Modellen – PEFT als Stabilitätspflicht
- LAUNCHreddit.com3h
Pythia-6.9B per Finetuning auf 13 Sprachen und Instruction Following gebracht
- FORSCHUNGarxiv.org3d
Instruction-Tuning Tax: Fine-Tuning schadet der Code-Infill-Leistung von LLMs
- MEINUNGreddit.com0mo
Niedrigere Lernrate rettet QLoRA-Finetuning auf Llama 3.1 8B
SFT verschlechtert Instruction-Following bei 1B- und 2B-Modellen laut IFEval
Der Reddit-Nutzer GPUburnout trainierte drei eigene Sprachmodelle mit 1B, 2B und 3B Parametern von Grund auf und wendete anschließend dieselbe SFT-Konfiguration an: SlimOrca 50K Datensatz, LoRA mit Rang 16, 1 Epoche. Die IFEval-Scores zeigen ein klares Muster: Das 1B-Modell verschlechterte sich von 20,50 auf 14,75 (−5,75 Punkte), das 2B-Modell von 21,94 auf 17,03 (−4,91 Punkte). Lediglich das 3B-Modell verbesserte sich von 23,14 auf 25,18 (+2,04 Punkte). Ein wesentlicher Unterschied im Setup: Das 3B-Modell wurde mit einer niedrigeren Lernrate von 5e-5 trainiert, während 1B und 2B mit 2e-4 trainiert wurden. Ob die Regression also auf fehlende Modellkapazität oder die zu hohe Lernrate zurückzuführen ist, bleibt offen – der Autor kündigt an, das 2B-Modell mit lr=5e-5 erneut zu trainieren. Der Beitrag löste eine Community-Diskussion darüber aus, ob IFEval-Regression nach SFT bei kleinen Modellen ein bekanntes Phänomen ist.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org4d
Full Fine-Tuning schadet Sub-300M-Modellen – PEFT als Stabilitätspflicht
- LAUNCHreddit.com3h
Pythia-6.9B per Finetuning auf 13 Sprachen und Instruction Following gebracht
- FORSCHUNGarxiv.org3d
Instruction-Tuning Tax: Fine-Tuning schadet der Code-Infill-Leistung von LLMs
- MEINUNGreddit.com0mo
Niedrigere Lernrate rettet QLoRA-Finetuning auf Llama 3.1 8B