Niedrigere Lernrate rettet QLoRA-Finetuning auf Llama 3.1 8B
Der Reddit-Nutzer /u/Scared-Biscotti2287 beschreibt einen klassischen Trainingsfehler beim QLoRA-Finetuning: Für eine Klassifikationsaufgabe mit ca. 8.000 Samples und Llama 3.1 8B lieferte das Modell trotz Daten-Cleaning, Prompt-Anpassungen sowie Experimente mit LoRA-Rank und Alpha schlechte Eval-Ergebnisse. Der entscheidende Wechsel war das Absenken der Lernrate von 2e-4 (gängiger Standard) auf 1e-4, kombiniert mit einer Erhöhung der Epochen von 3 auf 5. Das Training lief auf einer gemieteten NVIDIA 5090 über den Dienst Hyperai. Als zusätzliche Maßnahme wurde etwa ein Drittel des Datensatzes entfernt – hauptsächlich fehlerhaft gelabelte und mehrdeutige Beispiele –, was die Eval-Performance weiter verbesserte. Der Beitrag illustriert, dass der in vielen Frameworks voreingestellte Wert 2e-4 bei kleinen Datensätzen zu aggressiv ist: Das Modell überfittet bereits in der ersten Epoche und konvergiert in den folgenden Durchläufen kaum noch sinnvoll.
- Lernraten-Wechsel von 2e-4 → 1e-4 bei gleichzeitiger Erhöhung der Epochen von 3 auf 5
- Datensatz-Größe: ~8.000 Samples für eine Klassifikationsaufgabe
- Training auf gemieteter NVIDIA 5090 über den Dienst Hyperai
- Entfernen von ca. einem Drittel der Daten (mislabeled/ambiguous) verbesserte Eval zusätzlich
- Rank, Alpha und Prompt-Templates zeigten laut Autor keinen vergleichbaren Effekt
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Niedrigere Lernrate rettet QLoRA-Finetuning auf Llama 3.1 8B
Der Reddit-Nutzer /u/Scared-Biscotti2287 beschreibt einen klassischen Trainingsfehler beim QLoRA-Finetuning: Für eine Klassifikationsaufgabe mit ca. 8.000 Samples und Llama 3.1 8B lieferte das Modell trotz Daten-Cleaning, Prompt-Anpassungen sowie Experimente mit LoRA-Rank und Alpha schlechte Eval-Ergebnisse. Der entscheidende Wechsel war das Absenken der Lernrate von 2e-4 (gängiger Standard) auf 1e-4, kombiniert mit einer Erhöhung der Epochen von 3 auf 5. Das Training lief auf einer gemieteten NVIDIA 5090 über den Dienst Hyperai. Als zusätzliche Maßnahme wurde etwa ein Drittel des Datensatzes entfernt – hauptsächlich fehlerhaft gelabelte und mehrdeutige Beispiele –, was die Eval-Performance weiter verbesserte. Der Beitrag illustriert, dass der in vielen Frameworks voreingestellte Wert 2e-4 bei kleinen Datensätzen zu aggressiv ist: Das Modell überfittet bereits in der ersten Epoche und konvergiert in den folgenden Durchläufen kaum noch sinnvoll.
- Lernraten-Wechsel von 2e-4 → 1e-4 bei gleichzeitiger Erhöhung der Epochen von 3 auf 5
- Datensatz-Größe: ~8.000 Samples für eine Klassifikationsaufgabe
- Training auf gemieteter NVIDIA 5090 über den Dienst Hyperai
- Entfernen von ca. einem Drittel der Daten (mislabeled/ambiguous) verbesserte Eval zusätzlich
- Rank, Alpha und Prompt-Templates zeigten laut Autor keinen vergleichbaren Effekt
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.