RL
26 Beiträge der letzten 90 Tage zu RL — kuratiert von der Lumeric-Redaktion mit Trust-Labels und kurzem Warum-es-zählt-Block pro Story.
Reinforcement Learning · Sample-Effizienz und Reward-Robustheit dominieren die Forschungsfront
Aktueller Stand
Die RL-Forschung der vergangenen 30 Tage zeigt eine klare Verdichtung um zwei Achsen: Sample-Effizienz und Reward-Qualität. Auf der Effizienzseite liefern Arbeiten wie LEO (250×-Speedup bei All-Goals-Learning) und GPLD (bessere DreamerV3-Konvergenz) konkrete Verbesserungen, die über Benchmark-Tuning hinausgehen. Auf der Reward-Seite häufen sich Ansätze, die unsichere, verrauschte oder unvollständige Belohnungssignale robuster machen – von RLVR-Korrekturen für falsche Verifikatoren bis zu präferenzbasierter Constraint-Inferenz.
Ein struktureller Zug fällt auf: RL migriert von isolierten Kontrollproblemen in LLM-Post-Training, Multi-Agenten-Orchestrierung und Robotik gleichzeitig. Das Feld fragmentiert sich technisch, bleibt aber konzeptuell kohärent. Dominante Einzelakteure sind nicht erkennbar; der Output stammt fast ausschliesslich aus akademischen Gruppen, was auf eine noch offene Konsolidierungsphase hindeutet.
Wichtigste Updates
LLM-Reasoning per RL: Mehrere Fronten gleichzeitig. Innerhalb weniger Tage erschienen R³L, VI-CuRL, MaR und ALIVE als konkurrierende Ansätze, LLMs über RL robuster zu machen. R³L steigert Reasoning-Performance um bis zu 52 % durch gezielte Rollout-Neustarts ab dem Fehlerpunkt statt vollständiger Wiederholung. VI-CuRL adressiert Trainingskollaps durch Gradientenvarianz bei verifier-freiem RL-Training – ein Problem, das bislang kaum systematisch behandelt wurde. Parallel dazu ersetzt ALIVE skalare Reward-Signale durch verbales Feedback und erzielt laut Paper höhere Cross-Domain-Generalisierung bei gleichem Rechenbudget.
Agentic GRPO überwindet Off-Policy-Drift bei Coding-Agenten. Das erste KI-System, das alle Menschen in einem Programmierwettbewerb schlägt, basiert auf Agentic GRPO – einem Verfahren, das mehrstufige Agenten-Rollouts durch sofortige Zwischenbelohnungen mit nachträglicher Korrektur stabilisiert. Der Befund ist vorläufig, aber er markiert einen Punkt, an dem RL-Training für Coding-Agenten praktisch skalierbar wird.
Reward-Signal-Qualität als eigenes Forschungsfeld. RLVR-Pipelines mit verrauschten Verifikatoren erzeugen systematische Gradient-Verzerrungen, die bisher meist ignoriert wurden; die vorgestellten Korrekturen funktionieren ohne Verifikatortausch. Ergänzend liefert MaR metakognitive Reward-Dimensionen statt instanzspezifischer Rubriken – Qwen3.5-9B übertrifft damit GPT-OSS-120B im Gesamtdurchschnitt auf 22 Benchmarks. Das zeigt, wie stark Reward-Design die Modellperformance bewegt.
Robotik: Flow-Policies und Symmetrie als Effizienz-Hebel. SOM reduziert Diffusions-Policy-Inferenz auf einen einzigen Forward-Pass und hält dabei State-of-the-Art auf Locomotion-Benchmarks. Reflex nutzt Reflexionssymmetrie als Regularisierung und verbessert Sample-Effizienz bestehender On- und Off-Policy-Algorithmen ohne Architekturänderung – ein seltenes Beispiel, wo ein einfaches geometrisches Prinzip breite praktische Wirkung entfaltet.
Safe RL und Robustheit rücken näher an die Praxis. PbCRL inferiert Safety-Constraints aus Präferenzen ohne restriktive Annahmen. Infra-Bayesianische Agenten zeigen messbar bessere Worst-Case-Robustheit gegenüber klassischem Bayesianischem RL bei Modell-Misspecification – relevant dort, wo Umgebungen durch andere KI-Agenten oder menschliche Akteure verändert werden.
Was zu erwarten
Die Posts der vergangenen 30 Tage enthalten keine expliziten Ankündigungen bevorstehender Releases oder Produkt-Launches. Was sich aus den Forschungshinweisen ableiten lässt: LEO ist laut Paper als Open-Source-Code verfügbar, was zeitnahe Community-Replikationen und Benchmarkvergleiche wahrscheinlich macht. Agentic GRPO dürfte aufgrund des Wettbewerbsresultats weitere Anschlussstudien zur Stabilität bei noch längeren Rollouts nach sich ziehen. Im Safe-RL-Bereich signalisieren PbCRL und die Infra-Bayesian-Arbeit eine wachsende Bereitschaft, restriktionsfreie Constraint-Inferenz in echten Umgebungen zu testen. Ob sich diese Forschungslinien zu integrierten Frameworks verdichten, bleibt offen.
Top-Unternehmen in RL
Archiv
Beiträge · 26
NVIDIA veröffentlicht Polar: Token-treues Rollout-Framework für GRPO-Training
Polar ermöglicht GRPO-Training über beliebige Agent-Harnesses hinweg, ohne deren Code anzutasten – das senkt die Einstiegshürde für RL-basiertes Coding-Agent-Training erheblich. Die Integration als NeMo-Gym-Umgebung macht das Framework direkt in bestehende NVIDIA-Trainingspipelines einbindbar.
Bradley-Terry-Modell: Probabilistische Rankings aus paarweisen Vergleichen lernen
Das Bradley-Terry-Modell ist direkt relevant für RLHF und LLM-Evaluierung, wo Annotator-Präferenzen als Paarvergleiche vorliegen. Entwickler können damit strukturierte Rankings aus einfachem Feedback ableiten, ohne kalibrierte Einzelbewertungen zu benötigen.