Agentic GRPO: Erstes KI-System schlägt alle Menschen in Programmierwettbewerb
Agentic GRPO (Group Relative Policy Optimization) erweitert das etablierte GRPO-Verfahren für mehrstufige, agentenbasierte Workflows. Klassisches RL für LLMs belohnt erst am Ende einer Trajektorie – bei langen Coding-Agenten, die Hypothesen aufstellen, Tests schreiben, debuggen und mehrfach iterieren, führt das zu späten Rewards, instabilem Training und Off-Policy-Drift. Agentic GRPO begegnet dem mit zwei Mechanismen: Sofortige Zwischenbelohnungen nach jeder abgeschlossenen Stufe des Workflows sowie eine nachträgliche Korrektur dieser frühen Updates, sobald das finale Ergebnis bekannt ist. Das System lernt so kontinuierlich aus jedem Arbeitsschritt, ohne auf den Abschluss der gesamten Rollout-Episode warten zu müssen. Als Vergleichspunkt nennt der Post Googles Gemini 3 Deep Think, das bisher Platz 8 in Live-Wettbewerben für kompetitives Programmieren erreichte. Das neue System übertrifft laut Autor erstmals und konsistent alle menschlichen Teilnehmer. Details zu Modellarchitektur, Trainingsdaten und konkreten Benchmark-Metriken werden im Reddit-Post nicht genannt.
- GRPO sampelt mehrere Outputs, vergleicht sie relativ zueinander und vermeidet so perfekte skalare Reward-Kalibrierung.
- Agentic GRPO führt Intermediate Rewards ein: jede Stufe (Hypothese, Code, Tests, Debug) wird sofort bewertet.
- Nachträgliche Korrektur: Sobald der finale Reward eintrifft, werden frühere Updates retroaktiv angepasst.
- Googles Gemini 3 Deep Think war bisheriger Bestwert mit Platz 8 in Live-Wettbewerben.
- Zieldomänen laut Paper: Long-Horizon-Agenten, Coding-Agenten und autonome mehrstufige Workflows.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Agentic GRPO: Erstes KI-System schlägt alle Menschen in Programmierwettbewerb
Agentic GRPO (Group Relative Policy Optimization) erweitert das etablierte GRPO-Verfahren für mehrstufige, agentenbasierte Workflows. Klassisches RL für LLMs belohnt erst am Ende einer Trajektorie – bei langen Coding-Agenten, die Hypothesen aufstellen, Tests schreiben, debuggen und mehrfach iterieren, führt das zu späten Rewards, instabilem Training und Off-Policy-Drift. Agentic GRPO begegnet dem mit zwei Mechanismen: Sofortige Zwischenbelohnungen nach jeder abgeschlossenen Stufe des Workflows sowie eine nachträgliche Korrektur dieser frühen Updates, sobald das finale Ergebnis bekannt ist. Das System lernt so kontinuierlich aus jedem Arbeitsschritt, ohne auf den Abschluss der gesamten Rollout-Episode warten zu müssen. Als Vergleichspunkt nennt der Post Googles Gemini 3 Deep Think, das bisher Platz 8 in Live-Wettbewerben für kompetitives Programmieren erreichte. Das neue System übertrifft laut Autor erstmals und konsistent alle menschlichen Teilnehmer. Details zu Modellarchitektur, Trainingsdaten und konkreten Benchmark-Metriken werden im Reddit-Post nicht genannt.
- GRPO sampelt mehrere Outputs, vergleicht sie relativ zueinander und vermeidet so perfekte skalare Reward-Kalibrierung.
- Agentic GRPO führt Intermediate Rewards ein: jede Stufe (Hypothese, Code, Tests, Debug) wird sofort bewertet.
- Nachträgliche Korrektur: Sobald der finale Reward eintrifft, werden frühere Updates retroaktiv angepasst.
- Googles Gemini 3 Deep Think war bisheriger Bestwert mit Platz 8 in Live-Wettbewerben.
- Zieldomänen laut Paper: Long-Horizon-Agenten, Coding-Agenten und autonome mehrstufige Workflows.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.