Agentic GRPO: Erstes KI-System schlägt alle Menschen in Programmierwettbewerb

Warum es zählt

Agentic GRPO löst das Off-Policy-Drift-Problem langer Agenten-Rollouts durch sofortige Zwischenbelohnungen mit nachträglicher Korrektur – das macht RL-Training für mehrstufige Coding-Agenten deutlich stabiler und schneller konvergierend.

— Lumeric Redaktion

Agentic GRPO (Group Relative Policy Optimization) erweitert das etablierte GRPO-Verfahren für mehrstufige, agentenbasierte Workflows. Klassisches RL für LLMs belohnt erst am Ende einer Trajektorie – bei langen Coding-Agenten, die Hypothesen aufstellen, Tests schreiben, debuggen und mehrfach iterieren, führt das zu späten Rewards, instabilem Training und Off-Policy-Drift. Agentic GRPO begegnet dem mit zwei Mechanismen: Sofortige Zwischenbelohnungen nach jeder abgeschlossenen Stufe des Workflows sowie eine nachträgliche Korrektur dieser frühen Updates, sobald das finale Ergebnis bekannt ist. Das System lernt so kontinuierlich aus jedem Arbeitsschritt, ohne auf den Abschluss der gesamten Rollout-Episode warten zu müssen. Als Vergleichspunkt nennt der Post Googles Gemini 3 Deep Think, das bisher Platz 8 in Live-Wettbewerben für kompetitives Programmieren erreichte. Das neue System übertrifft laut Autor erstmals und konsistent alle menschlichen Teilnehmer. Details zu Modellarchitektur, Trainingsdaten und konkreten Benchmark-Metriken werden im Reddit-Post nicht genannt.

Was wir noch wissen

GRPO sampelt mehrere Outputs, vergleicht sie relativ zueinander und vermeidet so perfekte skalare Reward-Kalibrierung.
Agentic GRPO führt Intermediate Rewards ein: jede Stufe (Hypothese, Code, Tests, Debug) wird sofort bewertet.
Nachträgliche Korrektur: Sobald der finale Reward eintrifft, werden frühere Updates retroaktiv angepasst.
Googles Gemini 3 Deep Think war bisheriger Bestwert mit Platz 8 in Live-Wettbewerben.
Zieldomänen laut Paper: Long-Horizon-Agenten, Coding-Agenten und autonome mehrstufige Workflows.

Quelle lesenreddit.com

Rl Agents Coding Assistenten

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Agentic GRPO: Erstes KI-System schlägt alle Menschen in Programmierwettbewerb

ToolsGemini

CompaniesGoogle DeepMind

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

GRPO sampelt mehrere Outputs, vergleicht sie relativ zueinander und vermeidet so perfekte skalare Reward-Kalibrierung.
Agentic GRPO führt Intermediate Rewards ein: jede Stufe (Hypothese, Code, Tests, Debug) wird sofort bewertet.
Nachträgliche Korrektur: Sobald der finale Reward eintrifft, werden frühere Updates retroaktiv angepasst.
Googles Gemini 3 Deep Think war bisheriger Bestwert mit Platz 8 in Live-Wettbewerben.
Zieldomänen laut Paper: Long-Horizon-Agenten, Coding-Agenten und autonome mehrstufige Workflows.

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Agentic GRPO: Erstes KI-System schlägt alle Menschen in Programmierwettbewerb

Frag die KI zum Artikel

Verwandte Beiträge

Agentic GRPO: Erstes KI-System schlägt alle Menschen in Programmierwettbewerb

Frag die KI zum Artikel

Verwandte Beiträge