Beitrag
FORSCHUNG
arxiv.org· DeepMind · Paper18h

Reinforcement Learning aus Execution Feedback erreicht RLHF-Niveau auf GPQA

DeepMind zeigt: Belohnungen, die auf Code-Ausführung und formale Verifier gestützt sind, erreichen 78,4 % auf GPQA Diamond — vergleichbar mit RLHF-Pipelines bei einem Bruchteil der Annotationskosten.

78,4 %
GPQA Diamond, ohne menschliche Präferenzdaten
Warum es zählt
Wenn RLEF über verifizierbare Domänen hinaus generalisiert, fällt der Flaschenhals menschlicher Annotation weg. Potenziell das wichtigste Alignment-Resultat des Jahres.
— Lumeric Redaktion
RLDeepMindAlignment
Lumeric AI fragen
QUELLEN-GESTÜTZT