wird geladen
ActiveUltraFeedback: Active Learning reduziert RLHF-Datenbedarf auf ein Sechstel · Lumeric