NVIDIA veröffentlicht Polar: Token-treues Rollout-Framework für GRPO-Training

ToolsClaude Claude Code Qwen NVIDIA Hardware

CompaniesNVIDIA

Warum es zählt

Polar ermöglicht GRPO-Training über beliebige Agent-Harnesses hinweg, ohne deren Code anzutasten – das senkt die Einstiegshürde für RL-basiertes Coding-Agent-Training erheblich. Die Integration als NeMo-Gym-Umgebung macht das Framework direkt in bestehende NVIDIA-Trainingspipelines einbindbar.

— Lumeric Redaktion

NVIDIA Research hat Polar entwickelt, ein Rollout-Framework, das Reinforcement Learning für Sprach-Agenten ermöglicht, ohne bestehende Agent-Harnesses wie Codex, Claude Code oder Pi modifizieren zu müssen. Der Kern des Ansatzes ist ein Model-API-Proxy, der zwischen dem Harness und dem Inferenz-Server geschaltet wird. Dieser Proxy fängt alle Token-Level-Interaktionen ab und rekonstruiert daraus trajektorien, die direkt für das Training genutzt werden können. Als Trainingsalgorithmus kommt GRPO (Group Relative Policy Optimization) zum Einsatz, angewendet auf ein Qwen3.5-4B-Basismodell. Die Ergebnisse auf SWE-Bench Verified sind harness-abhängig: +22,6 Punkte pass@1 unter dem Codex-Harness, +4,8 Punkte unter Claude Code und +6,2 Punkte unter dem Pi-Harness. Polar ist als NeMo-Gym-Umgebung registriert und wurde unter dem ProRL Agent Server Repository veröffentlicht, was eine direkte Integration in NVIDIA-Trainingspipelines erlaubt.

Was wir noch wissen

Polar schaltet einen Model-API-Proxy zwischen Harness und Inferenz-Server, ohne den Harness-Code zu verändern.
Trainingsalgorithmus ist GRPO; Basismodell ist Qwen3.5-4B.
SWE-Bench Verified pass@1: +22,6 Pkt. (Codex), +4,8 Pkt. (Claude Code), +6,2 Pkt. (Pi).
Framework ist als NeMo-Gym-Umgebung registriert.
Veröffentlicht unter dem ProRL Agent Server Repository.

Quelle lesenmarktechpost.com

+22,6 Punkte pass@1

auf SWE-Bench Verified (Codex-Harness)

Rl Agents Post Training

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

NVIDIA veröffentlicht Polar: Token-treues Rollout-Framework für GRPO-Training

ToolsClaude Claude Code Qwen NVIDIA Hardware

CompaniesNVIDIA

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Polar schaltet einen Model-API-Proxy zwischen Harness und Inferenz-Server, ohne den Harness-Code zu verändern.
Trainingsalgorithmus ist GRPO; Basismodell ist Qwen3.5-4B.
SWE-Bench Verified pass@1: +22,6 Pkt. (Codex), +4,8 Pkt. (Claude Code), +6,2 Pkt. (Pi).
Framework ist als NeMo-Gym-Umgebung registriert.
Veröffentlicht unter dem ProRL Agent Server Repository.

+22,6 Punkte pass@1

auf SWE-Bench Verified (Codex-Harness)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

NVIDIA veröffentlicht Polar: Token-treues Rollout-Framework für GRPO-Training

Frag die KI zum Artikel

Verwandte Beiträge

NVIDIA veröffentlicht Polar: Token-treues Rollout-Framework für GRPO-Training

Frag die KI zum Artikel

Verwandte Beiträge