wird geladen
SD-GRPO: Segment-Decomposed Reward-Training für lange Vision-Language-Ausgaben · Lumeric