Kleines Modell trainiert auf eigenen Fehlern – 80 % auf HumanEval ohne menschliche Trainingsdaten

ToolsClaude Claude Code GPT Qwen NVIDIA Hardware DeepSeek Llama

Warum es zählt

Die Methode funktioniert modellübergreifend (Qwen, Llama, Qwen 3) und kostet nur 3,50 $ Rechenzeit – Self-Play-Fine-Tuning mit einem Python-Interpreter als einzigem Judge ist damit auch für Einzelpersonen ohne Lab realisierbar.

— Lumeric Redaktion

Ein Hobbyentwickler mit einem 24-GB-MacBook und einem RunPod-Konto hat eine Self-Play-Trainingsschleife gebaut, inspiriert vom DeepSeek-R1-Paper. Das Prinzip: Ein Basismodell erfindet eigene Coding-Aufgaben, schreibt Tests dazu und löst sie mehrfach. Richtige und falsche Lösungspaare werden gespeichert und zum Fine-Tuning genutzt – kein Mensch schreibt Trainingsdaten, der Python-Interpreter ist der einzige Judge.

Qwen 2.5 7B Base steigerte sich nach dem Training von 25 auf 112 gelöste HumanEval-Aufgaben (+87). Ein Kontrollexperiment mit zufälligem Garbage-Code als Trainingspaare zeigte keinerlei Verbesserung (25/164), was belegt, dass der Effekt spezifisch aus den Fehler-Korrektur-Paaren stammt. Qwen 2.5 14B Base trainierte auf 100 selbst-gemünzten Paaren in 95 Minuten auf einer H100 für 3,50 $ und landete innerhalb von 4 Punkten des RLHF-Fine-Tunes desselben Herstellers.

Das Rezept übertrug sich auf weitere Architekturen: Llama 3.2 3B (39→43 HumanEval), Qwen 2.5 Coder 7B (83→87 HumanEval, 122→124 MBPP) und Qwen 3 4B (79→106 HumanEval, 135→148 MBPP). Für Mathematik wurde SymPy als Judge eingesetzt; das finale Ergebnis soll GPT-3.5 auf Math übertroffen haben, Details dazu wurden im Auszug nicht vollständig dargestellt.

Quelle lesenreddit.com

HumanEval (164 Probleme) · Spitzenwert

25%

Qwen 2.5 7B Base (vorher)

Post Training Open Source Evals Benchmarks

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Kleines Modell trainiert auf eigenen Fehlern – 80 % auf HumanEval ohne menschliche Trainingsdaten

ToolsClaude Claude Code GPT Qwen NVIDIA Hardware DeepSeek Llama

CompaniesDeepSeek Meta AI

Warum es zählt

— Lumeric Redaktion

HumanEval (164 Probleme) · Spitzenwert

25%

Qwen 2.5 7B Base (vorher)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Kleines Modell trainiert auf eigenen Fehlern – 80 % auf HumanEval ohne menschliche Trainingsdaten

Frag die KI zum Artikel

Verwandte Beiträge

Kleines Modell trainiert auf eigenen Fehlern – 80 % auf HumanEval ohne menschliche Trainingsdaten

Frag die KI zum Artikel

Verwandte Beiträge