wird geladen
TD(0) mit Polyak-Ruppert-Averaging: robuste und schnelle Konvergenz mit einem Stepsize · Lumeric