GRPO-Training für Reddit-Zusammenfassungen auf Mac-Mini-Cluster mit 64-Token-Limit
Der Autor trainiert kompakte Language Models (LFM2.5-350M und Qwen2.5-0.5B-Instruct) für die Aufgabe, Reddit-Posts auf exakt 64 Token zusammenzufassen, nutzt dafür GRPO (eine RL-Methode) und verteilt die Rechenarbeit auf 3 Mac Minis mit dem MLX-Framework. Der zentrale technische Knackpunkt: eine Längenbeschränkung (length penalty) kollidiert mit klassischen BLEU- und ROUGE-L-Metriken, die selbst Längen-Strafen enthalten, was zu niedrigen Scores bei Training from scratch führt. Als Lösung nutzt der Autor einen bereits fein abgestimmten Checkpoint mit Längenbeschränkung als Startpunkt für weiteres GRPO-Training. Die Evaluation erfolgt über ein DeepEval-basiertes LLM-as-Judge-System mit GPT-5, das Treue, Abdeckung, Prägnanz und Lesbarkeit bewertet. Die verteilte Architektur nutzt einen Synchronous Parameter Server (SyncPS) mit MLX für Training auf dem Master-Node und vLLM-metal für Inferenz auf Worker-Knoten über smolcluster orchestriert.
- GRPO-Training auf 3x Mac-Mini-Cluster mit MLX und vLLM-metal Framework statt GPU-Hardware
- Längenbeschränkung auf 64 Token kollidiert mit BLEU/ROUGE-L-Metriken — Lösung durch verfeinerter Checkpoint als Startpunkt
- Eval mit 4 Achsen: Faithfulness (Halluzinationen), Coverage (Kernpunkte), Conciseness (Redundanz), Clarity (Lesbarkeit)
- Synchronous Parameter Server Architektur: Master mit GRPO-Training, Worker-Nodes für vLLM-Rollouts
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGreddit.com2d
GRPO-Training lehrt Sub-500M-Modelle längenkontrollierte Zusammenfassungen
- MEINUNGreddit.com5d
Community-Diskussion: Beste kleine Sprachmodelle ohne GPU
- FORSCHUNGarxiv.org1w
GRPO-Fine-Tuning für NLLB-200 ohne Referenzdaten übertrifft überwachtes Training
- FORSCHUNGreddit.com1w
Open-Source-LLM von Grund auf: 7B-MoE-Modell auf DeepSeek-Architektur in Training
GRPO-Training für Reddit-Zusammenfassungen auf Mac-Mini-Cluster mit 64-Token-Limit
Der Autor trainiert kompakte Language Models (LFM2.5-350M und Qwen2.5-0.5B-Instruct) für die Aufgabe, Reddit-Posts auf exakt 64 Token zusammenzufassen, nutzt dafür GRPO (eine RL-Methode) und verteilt die Rechenarbeit auf 3 Mac Minis mit dem MLX-Framework. Der zentrale technische Knackpunkt: eine Längenbeschränkung (length penalty) kollidiert mit klassischen BLEU- und ROUGE-L-Metriken, die selbst Längen-Strafen enthalten, was zu niedrigen Scores bei Training from scratch führt. Als Lösung nutzt der Autor einen bereits fein abgestimmten Checkpoint mit Längenbeschränkung als Startpunkt für weiteres GRPO-Training. Die Evaluation erfolgt über ein DeepEval-basiertes LLM-as-Judge-System mit GPT-5, das Treue, Abdeckung, Prägnanz und Lesbarkeit bewertet. Die verteilte Architektur nutzt einen Synchronous Parameter Server (SyncPS) mit MLX für Training auf dem Master-Node und vLLM-metal für Inferenz auf Worker-Knoten über smolcluster orchestriert.
- GRPO-Training auf 3x Mac-Mini-Cluster mit MLX und vLLM-metal Framework statt GPU-Hardware
- Längenbeschränkung auf 64 Token kollidiert mit BLEU/ROUGE-L-Metriken — Lösung durch verfeinerter Checkpoint als Startpunkt
- Eval mit 4 Achsen: Faithfulness (Halluzinationen), Coverage (Kernpunkte), Conciseness (Redundanz), Clarity (Lesbarkeit)
- Synchronous Parameter Server Architektur: Master mit GRPO-Training, Worker-Nodes für vLLM-Rollouts
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGreddit.com2d
GRPO-Training lehrt Sub-500M-Modelle längenkontrollierte Zusammenfassungen
- MEINUNGreddit.com5d
Community-Diskussion: Beste kleine Sprachmodelle ohne GPU
- FORSCHUNGarxiv.org1w
GRPO-Fine-Tuning für NLLB-200 ohne Referenzdaten übertrifft überwachtes Training
- FORSCHUNGreddit.com1w
Open-Source-LLM von Grund auf: 7B-MoE-Modell auf DeepSeek-Architektur in Training