Open-Source-Pipeline: Ein Prompt ergibt fertigen Kurzfilm – auf einer einzigen GPU
Der Reddit-Nutzer /u/Inevitable-Log5414 hat beim AMD × lablab-Hackathon eine vollständige Text-to-Cinematic-Reel-Pipeline entwickelt und als Open Source (Apache 2.0) veröffentlicht. Die 8 Stufen laufen sequenziell auf einer einzigen AMD Instinct MI300X (192 GB HBM3): Ein Director Agent auf Basis von Qwen3.5-35B-A3B (via vLLM + AITER MoE) plant 6 Shots inkl. Charakter-Bibeln, Musikbrief und Voiceover-Skript. FLUX.2 [klein] generiert kanonische Charakterporträts ohne LoRA-Training; Wan2.2-I2V-A14B animiert diese als 81-Frame-Clips @ 16 fps in 1280×720. Ein Vision-Critic (ebenfalls Qwen3.5-35B) prüft jeden Clip anhand von 10 strukturierten Fehler-Labels und löst bei Bedarf automatisch einen Retry aus. Musik liefert ACE-Step v1, Narration Kokoro-82M in 9 Sprachen. Durch ParaAttention FBCache und torch.compile sank die Renderzeit von 25,9 auf 10,4 Minuten pro Clip. Spezifische Wan-2.2-Erkenntnisse – u. a. zur Nutzung nativer 81-Frame-Verteilung, zu flow_shift-Werten und zum Vermeiden des Worts „cinematic" – sind im Post detailliert dokumentiert.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Open-Source-Pipeline: Ein Prompt ergibt fertigen Kurzfilm – auf einer einzigen GPU
Der Reddit-Nutzer /u/Inevitable-Log5414 hat beim AMD × lablab-Hackathon eine vollständige Text-to-Cinematic-Reel-Pipeline entwickelt und als Open Source (Apache 2.0) veröffentlicht. Die 8 Stufen laufen sequenziell auf einer einzigen AMD Instinct MI300X (192 GB HBM3): Ein Director Agent auf Basis von Qwen3.5-35B-A3B (via vLLM + AITER MoE) plant 6 Shots inkl. Charakter-Bibeln, Musikbrief und Voiceover-Skript. FLUX.2 [klein] generiert kanonische Charakterporträts ohne LoRA-Training; Wan2.2-I2V-A14B animiert diese als 81-Frame-Clips @ 16 fps in 1280×720. Ein Vision-Critic (ebenfalls Qwen3.5-35B) prüft jeden Clip anhand von 10 strukturierten Fehler-Labels und löst bei Bedarf automatisch einen Retry aus. Musik liefert ACE-Step v1, Narration Kokoro-82M in 9 Sprachen. Durch ParaAttention FBCache und torch.compile sank die Renderzeit von 25,9 auf 10,4 Minuten pro Clip. Spezifische Wan-2.2-Erkenntnisse – u. a. zur Nutzung nativer 81-Frame-Verteilung, zu flow_shift-Werten und zum Vermeiden des Worts „cinematic" – sind im Post detailliert dokumentiert.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.