
NVIDIA veröffentlicht Polar: Token-treues Rollout-Framework für GRPO-Training
NVIDIA Research hat Polar entwickelt, ein Rollout-Framework, das Reinforcement Learning für Sprach-Agenten ermöglicht, ohne bestehende Agent-Harnesses wie Codex, Claude Code oder Pi modifizieren zu müssen. Der Kern des Ansatzes ist ein Model-API-Proxy, der zwischen dem Harness und dem Inferenz-Server geschaltet wird. Dieser Proxy fängt alle Token-Level-Interaktionen ab und rekonstruiert daraus trajektorien, die direkt für das Training genutzt werden können. Als Trainingsalgorithmus kommt GRPO (Group Relative Policy Optimization) zum Einsatz, angewendet auf ein Qwen3.5-4B-Basismodell. Die Ergebnisse auf SWE-Bench Verified sind harness-abhängig: +22,6 Punkte pass@1 unter dem Codex-Harness, +4,8 Punkte unter Claude Code und +6,2 Punkte unter dem Pi-Harness. Polar ist als NeMo-Gym-Umgebung registriert und wurde unter dem ProRL Agent Server Repository veröffentlicht, was eine direkte Integration in NVIDIA-Trainingspipelines erlaubt.
- Polar schaltet einen Model-API-Proxy zwischen Harness und Inferenz-Server, ohne den Harness-Code zu verändern.
- Trainingsalgorithmus ist GRPO; Basismodell ist Qwen3.5-4B.
- SWE-Bench Verified pass@1: +22,6 Pkt. (Codex), +4,8 Pkt. (Claude Code), +6,2 Pkt. (Pi).
- Framework ist als NeMo-Gym-Umgebung registriert.
- Veröffentlicht unter dem ProRL Agent Server Repository.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge

NVIDIA veröffentlicht Polar: Token-treues Rollout-Framework für GRPO-Training
NVIDIA Research hat Polar entwickelt, ein Rollout-Framework, das Reinforcement Learning für Sprach-Agenten ermöglicht, ohne bestehende Agent-Harnesses wie Codex, Claude Code oder Pi modifizieren zu müssen. Der Kern des Ansatzes ist ein Model-API-Proxy, der zwischen dem Harness und dem Inferenz-Server geschaltet wird. Dieser Proxy fängt alle Token-Level-Interaktionen ab und rekonstruiert daraus trajektorien, die direkt für das Training genutzt werden können. Als Trainingsalgorithmus kommt GRPO (Group Relative Policy Optimization) zum Einsatz, angewendet auf ein Qwen3.5-4B-Basismodell. Die Ergebnisse auf SWE-Bench Verified sind harness-abhängig: +22,6 Punkte pass@1 unter dem Codex-Harness, +4,8 Punkte unter Claude Code und +6,2 Punkte unter dem Pi-Harness. Polar ist als NeMo-Gym-Umgebung registriert und wurde unter dem ProRL Agent Server Repository veröffentlicht, was eine direkte Integration in NVIDIA-Trainingspipelines erlaubt.
- Polar schaltet einen Model-API-Proxy zwischen Harness und Inferenz-Server, ohne den Harness-Code zu verändern.
- Trainingsalgorithmus ist GRPO; Basismodell ist Qwen3.5-4B.
- SWE-Bench Verified pass@1: +22,6 Pkt. (Codex), +4,8 Pkt. (Claude Code), +6,2 Pkt. (Pi).
- Framework ist als NeMo-Gym-Umgebung registriert.
- Veröffentlicht unter dem ProRL Agent Server Repository.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.