Reinforcement Learning aus Execution Feedback erreicht RLHF-Niveau auf GPQA

DeepMind zeigt: Belohnungen, die auf Code-Ausführung und formale Verifier gestützt sind, erreichen 78,4 % auf GPQA Diamond — vergleichbar mit RLHF-Pipelines bei einem Bruchteil der Annotationskosten.

78,4 %

GPQA Diamond, ohne menschliche Präferenzdaten

Warum es zählt

Wenn RLEF über verifizierbare Domänen hinaus generalisiert, fällt der Flaschenhals menschlicher Annotation weg. Potenziell das wichtigste Alignment-Resultat des Jahres.

— Lumeric Redaktion

RLDeepMindAlignment

Lumeric AI fragen

QUELLEN-GESTÜTZT