Reinforcement Learning aus Execution Feedback erreicht RLHF-Niveau auf GPQA
DeepMind zeigt: Belohnungen, die auf Code-Ausführung und formale Verifier gestützt sind, erreichen 78,4 % auf GPQA Diamond — vergleichbar mit RLHF-Pipelines bei einem Bruchteil der Annotationskosten.
78,4 %
GPQA Diamond, ohne menschliche Präferenzdaten
Warum es zählt
Wenn RLEF über verifizierbare Domänen hinaus generalisiert, fällt der Flaschenhals menschlicher Annotation weg. Potenziell das wichtigste Alignment-Resultat des Jahres.
— Lumeric Redaktion
RLDeepMindAlignment
Lumeric AI fragen
QUELLEN-GESTÜTZT