Google Gemini Omni: Multimodales Modell verwandelt beliebige Inputs in Videos

Warum es zählt

Omni bietet erstmals eine durchgängige multimodale Video-Pipeline inklusive digitaler Avatare, SynthID-Wasserzeichen und Text-Rendering – relevant für Werbetreibende, Filmemacher und Content Creator. Eine API-Freigabe folgt in den nächsten Wochen.

— Lumeric Redaktion

Auf der Google I/O 2026 hat Google CEO Sundar Pichai Gemini Omni vorgestellt, eine neue Familie multimodaler Modelle, die das ursprüngliche Versprechen von Gemini einlösen soll: ein einziges neuronales Netz, das Text, Bild, Audio und Video versteht und erzeugt. Anders als das bereits existierende Videomodell Veo geht Omni laut Nicole Brichtova, Director of Product Management bei Google DeepMind, einen Schritt weiter: Es kombiniert die Reasoning-Fähigkeiten von Gemini mit den Rendering-Kapazitäten der Medienmodelle. Ein Demo-Beispiel: Auf den Prompt „a claymation explainer of protein folding" erzeugte Omni eigenständig ein Stop-Motion-Video inklusive passendem Voice-over. Das erste veröffentlichte Modell, Gemini Omni Flash, rendert Videos von bis zu 10 Sekunden – eine bewusste Produktentscheidung, keine technische Limitierung. Flash ist ab sofort in der Gemini App, YouTube Shorts und dem KI-Kreativstudio Flow verfügbar; eine API folgt in den nächsten Wochen. Für professionellere Anwendungsfälle ist Gemini Omni Pro in Vorbereitung, ohne konkreten Erscheinungstermin. Alle erzeugten Videos erhalten automatisch Googles SynthID-Wasserzeichen. Digitale Avatare – vergleichbar mit dem Cameos-Feature des inzwischen eingestellten OpenAI-Sora-App – sind bereits heute auf YouTube Shorts nutzbar, erfordern aber einen Onboarding-Prozess zur Deepfake-Prävention.

Quelle lesentechcrunch.com

Multimodal Videogenerierung Foundation Modelle