
Microsoft Research: World-R1 bringt 3D-Konsistenz in Wan 2.1 via Reinforcement Learning
World-R1 ist ein Forschungsprojekt von Microsoft Research, das Reinforcement Learning gezielt einsetzt, um 3D-geometrische Konsistenz in Text-to-Video-Modelle zu injizieren. Konkret wird das bestehende Wan-2.1-Modell ohne Architekturänderungen mit dem Flow-GRPO-Verfahren nachtrainiert – einer Adaption von Group Relative Policy Optimization (GRPO) für Flow-Matching-Modelle. Als Trainingsignal dienen 3D-aware Rewards, die bewerten, ob generierte Video-Frames räumlich und geometrisch kohärent sind, etwa ob Tiefenbeziehungen und Perspektiven über Frames hinweg konsistent bleiben. Bislang leiden viele Text-to-Video-Modelle darunter, dass sie zwar optisch überzeugende, aber geometrisch inkonsistente Szenen erzeugen. World-R1 adressiert dieses Problem auf der Ebene des Post-Trainings, was den Ansatz auf andere Flow-basierte Videomodelle übertragbar macht. Der Ansatz reiht sich in eine wachsende Forschungsrichtung ein, die RL-Finetuning – bekannt aus dem Sprachmodell-Bereich (RLHF, GRPO) – auf multimodale generative Modelle überträgt.
- Flow-GRPO adaptiert die GRPO-Methode (bekannt aus LLM-Training) für Flow-Matching-basierte Diffusionsmodelle.
- 3D-aware Rewards bewerten geometrische und räumliche Konsistenz zwischen generierten Video-Frames.
- Wan 2.1 wird als Basismodell verwendet; die Architektur bleibt vollständig unverändert.
- Der Ansatz ist potenziell auf andere Flow-basierte Text-to-Video-Modelle übertragbar.
- Ziel ist die Behebung geometrischer Inkonsistenzen, die typisch für aktuelle Video-Diffusionsmodelle sind.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge

Microsoft Research: World-R1 bringt 3D-Konsistenz in Wan 2.1 via Reinforcement Learning
World-R1 ist ein Forschungsprojekt von Microsoft Research, das Reinforcement Learning gezielt einsetzt, um 3D-geometrische Konsistenz in Text-to-Video-Modelle zu injizieren. Konkret wird das bestehende Wan-2.1-Modell ohne Architekturänderungen mit dem Flow-GRPO-Verfahren nachtrainiert – einer Adaption von Group Relative Policy Optimization (GRPO) für Flow-Matching-Modelle. Als Trainingsignal dienen 3D-aware Rewards, die bewerten, ob generierte Video-Frames räumlich und geometrisch kohärent sind, etwa ob Tiefenbeziehungen und Perspektiven über Frames hinweg konsistent bleiben. Bislang leiden viele Text-to-Video-Modelle darunter, dass sie zwar optisch überzeugende, aber geometrisch inkonsistente Szenen erzeugen. World-R1 adressiert dieses Problem auf der Ebene des Post-Trainings, was den Ansatz auf andere Flow-basierte Videomodelle übertragbar macht. Der Ansatz reiht sich in eine wachsende Forschungsrichtung ein, die RL-Finetuning – bekannt aus dem Sprachmodell-Bereich (RLHF, GRPO) – auf multimodale generative Modelle überträgt.
- Flow-GRPO adaptiert die GRPO-Methode (bekannt aus LLM-Training) für Flow-Matching-basierte Diffusionsmodelle.
- 3D-aware Rewards bewerten geometrische und räumliche Konsistenz zwischen generierten Video-Frames.
- Wan 2.1 wird als Basismodell verwendet; die Architektur bleibt vollständig unverändert.
- Der Ansatz ist potenziell auf andere Flow-basierte Text-to-Video-Modelle übertragbar.
- Ziel ist die Behebung geometrischer Inkonsistenzen, die typisch für aktuelle Video-Diffusionsmodelle sind.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.