Topic

RL

50 Beiträge der letzten 90 Tage zu RL — kuratiert von der Lumeric-Redaktion mit Trust-Labels und kurzem Warum-es-zählt-Block pro Story.

State of RL

★ verifiziert

Reinforcement Learning · Post-Training-Optimierung und Robotik-Policies dominieren den Monat

Aktueller Stand

Reinforcement Learning erlebt keine Paradigmenwende, sondern eine breite Verdichtung: Die Forschungsfront der vergangenen 30 Tage ist geprägt von inkrementellen, aber substanziellen Verbesserungen entlang drei Achsen — RLHF-Stabilisierung, LLM-Agentenintegration und physische Robotik.

Auf der RLHF-Seite drücken mehrere Gruppen gleichzeitig auf Reward-Model-Qualität: Kalibrierfehler durch heterogene Annotator-Populationen, Überempfindlichkeit von Reward-Modellen und Policy-Bias bei verzögerten Reward-Signalen werden parallel adressiert. Im Robotikbereich zeigt sich ein Trend zu Policy-Komposition und Kontaktmodellierung statt Neuentwicklung. Bei LLM-Agenten wird RL zunehmend als Brücke zwischen reaktivem Verhalten und echter Vorausschau eingesetzt. Kommerzielle Signale kommen vereinzelt: RL-basiertes Model-Routing ist bereits als Launch-Produkt erschienen. Die Grundlagenforschung dominiert jedoch klar gegenüber produktionsreifen Releases.

Wichtigste Updates

Der auffälligste methodische Fortschritt betrifft die Stabilisierung von PPO-basierten LLM-Trainingspipelines. Trust Region Masking zeigt, dass klassisches PPO-Clipping auf Sequenzebene keine kontrollierten Divergenz-Garantien liefert — das neue Verfahren reduziert den theoretischen Bound von O(T²) auf O(T) und ist direkt in bestehende LLM-RL-Pipelines integrierbar. Parallel dazu adressiert RAC einen anderen strukturellen Schwachpunkt: Verzögerte Reward-Signale — etwa bei langsamen Evaluationsschritten — erzeugen systematischen Policy-Bias, den RAC via V-Trace um bis zu 47,9× gegenüber Standard-PPO reduziert. Der Eingriff erfordert lediglich einen Zwei-Zeilen-Patch.

Im Bereich RLHF-Reward-Modellierung adressieren zwei Arbeiten das Kalibrierproblem aus verschiedenen Winkeln: PEBS passt annotatorspezifische Kalibratoren post-hoc an, ohne Modell-Retraining. Separat schlägt die Diskretisierungsarbeit vor, Reward-Model-Überempfindlichkeit durch strukturelle Anpassungen zu dämpfen — ohne Architekturwechsel.

In der Robotik setzt DexCompose auf Wiederverwendung vortrainierter Dextrous-Policies anstelle von Multi-Task-Neutraining, während SceneBot kontaktreiche Humanoid-Manipulation durch explizite Körperglied-Kontakt-Labels löst — Code und Daten sollen veröffentlicht werden. Object-Centric Residual RL verbessert darüber hinaus den Sim-to-Real-Transfer für VLA-Modelle ohne zusätzliches Real-World-Training.

ATOD zeigt für Multi-Turn-Agenten, dass ein hybrider Distillations-RL-Ansatz reine GRPO-Baselines um über 23 Prozentpunkte übertrifft und sogar Lehrermodelle schlägt — ein Signal, dass die Kombination aus Imitation und Reinforcement bei kleinen Agenten mehr trägt als RL allein.

Auf der Anwendungsseite ist Weave Router als Launch-Produkt erschienen: ein RL-basiertes Model-Routing-System für Coding-Agents, das Frontier-Modelle nur bei Bedarf einsetzt und günstigere Modelle für den Grossteil der Anfragen nutzt.

Was zu erwarten

Konkrete angekündigte Releases sind rar: SceneBot hat Code und Daten zur Veröffentlichung angekündigt — ein Zeitrahmen fehlt. ProMSA hat seinen Code bereits öffentlich zugänglich gemacht. Qwen-Image-2.0-RL signalisiert, dass GRPO-basierte RL-Pipelines für Diffusionsmodelle weiter ausgebaut werden — ein Trend, der sich mit NormGuard und PEBS inhaltlich verbindet.

Offen bleibt, ob die methodischen Verbesserungen bei PPO und Reward-Kalibrierung in grösseren Trainingspipelines repliziert werden. Die Autocurriculum-Arbeit deutet auf weitere theoretische Arbeiten zur Sample-Effizienz bei RLVR hin. Ein übergreifender Integrations-Benchmark, der die verschiedenen Reward-Stabilisierungsansätze vergleicht, fehlt bislang.

Kuratiert von Gregor Scheiwiller · 29. Juni 2026 · Methodologie

Top-Tools rund um RL

Qwen62×GPT29×Hugging Face22×Claude15×Modal15×Gemini13×

Top-Unternehmen in RL

Meta AI33×Hugging Face22×Google DeepMind9×NVIDIA7×OpenAI

Archiv

Juni 2026 Mai 2026 April 2026

Beiträge · 50

MEINUNGTheSequence3d

Was macht eine Domain gut für KI-Training? Analyse jenseits von Verifizierbarkeit

Für AI-Builder relevant: Warum RL-Umgebungen für bestimmte Domains (Robotik, Computer Use) trotz hoher Investitionen enttäuschen und welche strukturellen Eigenschaften bei der Auswahl von Trainingsdomains entscheidend sind.

FUNDINGTechCrunch AI4d

Prime Intellect sammelt 130 Mio. Dollar für Enterprise-KI-Agent-Plattform

Prime Intellect ermöglicht Unternehmen, eigene Agenten per Reinforcement Learning zu trainieren, ohne auf geschlossene Frontier-Labs angewiesen zu sein – mit bereits 100 Mio. Dollar annualisiertem Umsatz und Kunden wie Ramp und Zapier ein ernstzunehmender Full-Stack-Ansatz.

LAUNCH

Reinforcement Learning · Post-Training-Optimierung und Robotik-Policies dominieren den Monat

Aktueller Stand

Wichtigste Updates

Was zu erwarten

Top-Tools rund um RL

Top-Unternehmen in RL

Archiv

Beiträge · 50

Was macht eine Domain gut für KI-Training? Analyse jenseits von Verifizierbarkeit

Prime Intellect sammelt 130 Mio. Dollar für Enterprise-KI-Agent-Plattform

Cognition launcht SWE-1.7: Frontier-Coding-Modell zu geringeren Kosten

Lilian Weng fasst 35 Paper zu Harness Engineering für RSI zusammen

KI treibt autonome Allzweckroboter in Betrieb und Haushalt voran

RL-Modell mit PPO augmentiert LLM-Antworten für Verkaufsstrategien

OpenAI Agent RFT: Reinforcement Learning für Enterprise-Finetuning im Praxiseinsatz

HIP-Kernel-Generierung für AMD-GPUs mit Multi-Agent und RL verbessert

KI-Agenten schreiben kollaborativ Wiki zu RL für LLMs mit 200+ Papers

EquiLibre Technologies mit 500 Mio. Dollar bewertet nach Series A von Creandum

Miles: PyTorch-natives Open-Source-Framework für LLM RL Post-Training

Sebastian Raschka veröffentlicht Buch: Build a Reasoning Model From Scratch

Post-Training als Geschäftsmodell: Praxisbericht aus 4 Jahren SFT und RFT

Weave Router: RL-basiertes Model-Routing für Claude Code, Codex und Cursor

Self-Driving Labs: KI wählt das nächste Experiment autonom

Qwen-AgentWorld-35B-A3B: MoE-Modell simuliert Agent-Umgebungen

Community-Diskussion: SFT vs. RL für Qwen 3.5 Multi-Tool-Agenten

TMax: Offenes RL-Rezept für Terminal-Agenten schlägt 32B-Modelle mit 9B

Football Tactical AI: Natürlichsprachliche Taktik-Steuerung für Multi-Agent-Systeme

MosaicLeaks: RL-Methode reduziert Privacy-Leakage in Deep-Research-Agents

Post-Training bringt LLM zu echter Gleichverteilung beim Würfeln

SIQ-1: Qwen-35B mit PPO für autonome Agenten und Autoresearch

Post-Training-Rezepte 2026: MOPD löst monolithisches RL als Standard ab

OpenMythos: Open-Source-LLM mit RLVR für Cybersecurity-Aufgaben

Rich Sutton über KI-Kreativität und wissenschaftliche Entdeckung

Anthropic meldet 8-fachen Code-Anstieg als Indiz für rekursive Selbstverbesserung

OpenEnv wird zum Open-Source-Standard für Agentic RL – Governance-Komitee gegründet

Fehlerhafte RL-Environments ruinieren Trainingsdaten – eine Praxis-Analyse

On-Policy vs. Off-Policy: Die grundlegende Weichenstellung im Reinforcement Learning

Axiom Math erreicht 99% auf Verina-Benchmark – mit formalem Lean-Beweis-Ansatz

Direct Preference Optimization jenseits von Chatbots

Zeitversatz: Wann landen Arxiv-Paper der großen Labs in echten Modellen?

Tiefenanalyse von ByteDances verl: Internals, Fork-Kosten und NCCL-Bug

NVIDIA veröffentlicht Polar: Token-treues Rollout-Framework für GRPO-Training

Bradley-Terry-Modell: Probabilistische Rankings aus paarweisen Vergleichen lernen

Delta Weight Sync in TRL: Billion-Parameter-Modelle effizient über Hub-Bucket ausliefern

GRPO-Training lehrt Sub-500M-Modelle längenkontrollierte Zusammenfassungen

Multimodales RLVR-Pipeline-Tutorial mit Open-MM-RL und GRPO-Export

Agentic GRPO: Erstes KI-System schlägt alle Menschen in Programmierwettbewerb

Qwen3 per RL zum Selbst-Jailbreak trainiert – dann Verteidigung gehärtet

inclusionAI veröffentlicht Ring-2.6-1T: Billion-Parameter-Reasoning-Modell für Agenten

Prompt-Caching für RL-Training: 7,5-facher Speedup bei langen Prompts

ServiceNow: vLLM V0 zu V1 Migration mit Fokus auf Backend-Korrektheit in RL

Google DeepMind nimmt Minderheitsbeteiligung an EVE-Online-Entwickler Fenris Creations

Hugging Face vergleicht RL-Umgebungen über alle Frameworks hinweg

Multi-Agent Reinforcement Learning für skalierbare Logistik-Optimierung

Deep Q-Learning in Connect Four: Von Tabellenmethoden zur Funktionsapproximation

Jack Clark: 60%+ Wahrscheinlichkeit für autonome AI-Forschung bis Ende 2028

Praxisguide: LLM Post-Training mit TRL – von SFT über DPO bis GRPO

Sakana AIs „God Simulator": KI simuliert Evolution von Universen