GRPO-Training lehrt Sub-500M-Modelle längenkontrollierte Zusammenfassungen
Der Reddit-Nutzer /u/East-Muffin-6472 veröffentlichte einen Blogpost über ein zweimonatiges Side-Research-Projekt zur längengesteuerten Textzusammenfassung mit GRPO (Group Relative Policy Optimization). Ziel war es, Sub-500M-Modelle – konkret Qwen2.5-0.5B-Instruct und LFM-2.5-350M – darauf zu trainieren, Reddit-Posts in exakt 64 Token zusammenzufassen, ohne die Qualität zu opfern. Ausgangspunkt waren ernüchternde Zero-Shot-Ergebnisse: Pass-Raten von nur 21 % (Qwen) bzw. 13 % (LFM) und G-Eval-Scores unter 2.4. Getestet wurden 12 Reward-Konfigurationen in zwei Trainingsstrategien: stufenweises Curriculum (erst Längen-Reward, dann Qualitäts-Reward) versus Joint-Training (beide Rewards gleichzeitig). Das stufenweise Vorgehen gewann klar. Als Qualitätssignale dienten ROUGE-L, METEOR und BLEU sowie deren paarweise Kombinationen. Die Infrastruktur bestand aus einem selbstgebauten 3×Mac-mini-M4-Cluster (je 16 GB RAM) mit MLX-Training und verteiltem vLLM für asynchrone Rollout-Generierung – ohne LoRA, in vollem bf16 mit Gradient Checkpointing. BLEU als alleiniger Reward erwies sich als ungeeignet; METEOR+ROUGE-L als zuverlässigste Kombination.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
GRPO-Training lehrt Sub-500M-Modelle längenkontrollierte Zusammenfassungen
Der Reddit-Nutzer /u/East-Muffin-6472 veröffentlichte einen Blogpost über ein zweimonatiges Side-Research-Projekt zur längengesteuerten Textzusammenfassung mit GRPO (Group Relative Policy Optimization). Ziel war es, Sub-500M-Modelle – konkret Qwen2.5-0.5B-Instruct und LFM-2.5-350M – darauf zu trainieren, Reddit-Posts in exakt 64 Token zusammenzufassen, ohne die Qualität zu opfern. Ausgangspunkt waren ernüchternde Zero-Shot-Ergebnisse: Pass-Raten von nur 21 % (Qwen) bzw. 13 % (LFM) und G-Eval-Scores unter 2.4. Getestet wurden 12 Reward-Konfigurationen in zwei Trainingsstrategien: stufenweises Curriculum (erst Längen-Reward, dann Qualitäts-Reward) versus Joint-Training (beide Rewards gleichzeitig). Das stufenweise Vorgehen gewann klar. Als Qualitätssignale dienten ROUGE-L, METEOR und BLEU sowie deren paarweise Kombinationen. Die Infrastruktur bestand aus einem selbstgebauten 3×Mac-mini-M4-Cluster (je 16 GB RAM) mit MLX-Training und verteiltem vLLM für asynchrone Rollout-Generierung – ohne LoRA, in vollem bf16 mit Gradient Checkpointing. BLEU als alleiniger Reward erwies sich als ungeeignet; METEOR+ROUGE-L als zuverlässigste Kombination.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.