Kleines Modell trainiert auf eigenen Fehlern – 80 % auf HumanEval ohne menschliche Trainingsdaten
Ein Hobbyentwickler mit einem 24-GB-MacBook und einem RunPod-Konto hat eine Self-Play-Trainingsschleife gebaut, inspiriert vom DeepSeek-R1-Paper. Das Prinzip: Ein Basismodell erfindet eigene Coding-Aufgaben, schreibt Tests dazu und löst sie mehrfach. Richtige und falsche Lösungspaare werden gespeichert und zum Fine-Tuning genutzt – kein Mensch schreibt Trainingsdaten, der Python-Interpreter ist der einzige Judge.
Qwen 2.5 7B Base steigerte sich nach dem Training von 25 auf 112 gelöste HumanEval-Aufgaben (+87). Ein Kontrollexperiment mit zufälligem Garbage-Code als Trainingspaare zeigte keinerlei Verbesserung (25/164), was belegt, dass der Effekt spezifisch aus den Fehler-Korrektur-Paaren stammt. Qwen 2.5 14B Base trainierte auf 100 selbst-gemünzten Paaren in 95 Minuten auf einer H100 für 3,50 $ und landete innerhalb von 4 Punkten des RLHF-Fine-Tunes desselben Herstellers.
Das Rezept übertrug sich auf weitere Architekturen: Llama 3.2 3B (39→43 HumanEval), Qwen 2.5 Coder 7B (83→87 HumanEval, 122→124 MBPP) und Qwen 3 4B (79→106 HumanEval, 135→148 MBPP). Für Mathematik wurde SymPy als Judge eingesetzt; das finale Ergebnis soll GPT-3.5 auf Math übertroffen haben, Details dazu wurden im Auszug nicht vollständig dargestellt.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org1w
LLMs lernen Syntax, aber keine Semantik: Studie mit PyLang zeigt Implementation Fidelity Gap
- BENCHMARKreddit.com1w
Qwen-35B-A3B erreicht Near-GPT-5.4-xHigh auf HLE durch dynamische Compute-Zuteilung
- FORSCHUNGarxiv.org3w
EvoLM: Sprachmodelle optimieren sich selbst durch Ko-evolvierte Evaluierungsrubriken
Kleines Modell trainiert auf eigenen Fehlern – 80 % auf HumanEval ohne menschliche Trainingsdaten
Ein Hobbyentwickler mit einem 24-GB-MacBook und einem RunPod-Konto hat eine Self-Play-Trainingsschleife gebaut, inspiriert vom DeepSeek-R1-Paper. Das Prinzip: Ein Basismodell erfindet eigene Coding-Aufgaben, schreibt Tests dazu und löst sie mehrfach. Richtige und falsche Lösungspaare werden gespeichert und zum Fine-Tuning genutzt – kein Mensch schreibt Trainingsdaten, der Python-Interpreter ist der einzige Judge.
Qwen 2.5 7B Base steigerte sich nach dem Training von 25 auf 112 gelöste HumanEval-Aufgaben (+87). Ein Kontrollexperiment mit zufälligem Garbage-Code als Trainingspaare zeigte keinerlei Verbesserung (25/164), was belegt, dass der Effekt spezifisch aus den Fehler-Korrektur-Paaren stammt. Qwen 2.5 14B Base trainierte auf 100 selbst-gemünzten Paaren in 95 Minuten auf einer H100 für 3,50 $ und landete innerhalb von 4 Punkten des RLHF-Fine-Tunes desselben Herstellers.
Das Rezept übertrug sich auf weitere Architekturen: Llama 3.2 3B (39→43 HumanEval), Qwen 2.5 Coder 7B (83→87 HumanEval, 122→124 MBPP) und Qwen 3 4B (79→106 HumanEval, 135→148 MBPP). Für Mathematik wurde SymPy als Judge eingesetzt; das finale Ergebnis soll GPT-3.5 auf Math übertroffen haben, Details dazu wurden im Auszug nicht vollständig dargestellt.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org1w
LLMs lernen Syntax, aber keine Semantik: Studie mit PyLang zeigt Implementation Fidelity Gap
- BENCHMARKreddit.com1w
Qwen-35B-A3B erreicht Near-GPT-5.4-xHigh auf HLE durch dynamische Compute-Zuteilung
- FORSCHUNGarxiv.org3w
EvoLM: Sprachmodelle optimieren sich selbst durch Ko-evolvierte Evaluierungsrubriken