GRPO-Training lehrt Sub-500M-Modelle längenkontrollierte Zusammenfassungen

Warum es zählt

Stufenweises GRPO-Training (zuerst Längen-Reward, dann Qualitäts-Reward) übertrifft Joint-Training bei Tiny-LLMs und lässt sich auf einem 3×Mac-mini-M4-Cluster ohne LoRA vollständig in bf16 durchführen – relevant für ressourcenlimitiertes RLHF-Setup mit Sub-500M-Modellen.

— Lumeric Redaktion

Der Reddit-Nutzer /u/East-Muffin-6472 veröffentlichte einen Blogpost über ein zweimonatiges Side-Research-Projekt zur längengesteuerten Textzusammenfassung mit GRPO (Group Relative Policy Optimization). Ziel war es, Sub-500M-Modelle – konkret Qwen2.5-0.5B-Instruct und LFM-2.5-350M – darauf zu trainieren, Reddit-Posts in exakt 64 Token zusammenzufassen, ohne die Qualität zu opfern. Ausgangspunkt waren ernüchternde Zero-Shot-Ergebnisse: Pass-Raten von nur 21 % (Qwen) bzw. 13 % (LFM) und G-Eval-Scores unter 2.4. Getestet wurden 12 Reward-Konfigurationen in zwei Trainingsstrategien: stufenweises Curriculum (erst Längen-Reward, dann Qualitäts-Reward) versus Joint-Training (beide Rewards gleichzeitig). Das stufenweise Vorgehen gewann klar. Als Qualitätssignale dienten ROUGE-L, METEOR und BLEU sowie deren paarweise Kombinationen. Die Infrastruktur bestand aus einem selbstgebauten 3×Mac-mini-M4-Cluster (je 16 GB RAM) mit MLX-Training und verteiltem vLLM für asynchrone Rollout-Generierung – ohne LoRA, in vollem bf16 mit Gradient Checkpointing. BLEU als alleiniger Reward erwies sich als ungeeignet; METEOR+ROUGE-L als zuverlässigste Kombination.

Quelle lesenreddit.com

G-Eval Composite (Faithfulness, Coverage, Conciseness, Clarity) · Spitzenwert

2.332%

LFM-2.5-350M Zero-Shot

Rl Foundation Modelle Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

GRPO-Training lehrt Sub-500M-Modelle längenkontrollierte Zusammenfassungen

ToolsQwen

Warum es zählt

— Lumeric Redaktion

G-Eval Composite (Faithfulness, Coverage, Conciseness, Clarity) · Spitzenwert

2.332%

LFM-2.5-350M Zero-Shot

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

GRPO-Training lehrt Sub-500M-Modelle längenkontrollierte Zusammenfassungen

Frag die KI zum Artikel

Verwandte Beiträge

GRPO-Training lehrt Sub-500M-Modelle längenkontrollierte Zusammenfassungen

Frag die KI zum Artikel

Verwandte Beiträge