Reinforcement Learning aus Execution Feedback erreicht RLHF-Niveau auf GPQA
DeepMind zeigt: Belohnungen, die auf Code-Ausführung und formale Verifier gestützt sind, erreichen 78,4 % auf GPQA Diamond — vergleichbar mit RLHF-Pipelines bei einem Bruchteil der Annotationskosten.
78,4 %
KernwertGPQA Diamond, ohne menschliche Präferenzdaten