
Google Gemini Omni: Multimodales Modell verwandelt beliebige Inputs in Videos
Auf der Google I/O 2026 hat Google CEO Sundar Pichai Gemini Omni vorgestellt, eine neue Familie multimodaler Modelle, die das ursprüngliche Versprechen von Gemini einlösen soll: ein einziges neuronales Netz, das Text, Bild, Audio und Video versteht und erzeugt. Anders als das bereits existierende Videomodell Veo geht Omni laut Nicole Brichtova, Director of Product Management bei Google DeepMind, einen Schritt weiter: Es kombiniert die Reasoning-Fähigkeiten von Gemini mit den Rendering-Kapazitäten der Medienmodelle. Ein Demo-Beispiel: Auf den Prompt „a claymation explainer of protein folding" erzeugte Omni eigenständig ein Stop-Motion-Video inklusive passendem Voice-over. Das erste veröffentlichte Modell, Gemini Omni Flash, rendert Videos von bis zu 10 Sekunden – eine bewusste Produktentscheidung, keine technische Limitierung. Flash ist ab sofort in der Gemini App, YouTube Shorts und dem KI-Kreativstudio Flow verfügbar; eine API folgt in den nächsten Wochen. Für professionellere Anwendungsfälle ist Gemini Omni Pro in Vorbereitung, ohne konkreten Erscheinungstermin. Alle erzeugten Videos erhalten automatisch Googles SynthID-Wasserzeichen. Digitale Avatare – vergleichbar mit dem Cameos-Feature des inzwischen eingestellten OpenAI-Sora-App – sind bereits heute auf YouTube Shorts nutzbar, erfordern aber einen Onboarding-Prozess zur Deepfake-Prävention.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge

Google Gemini Omni: Multimodales Modell verwandelt beliebige Inputs in Videos
Auf der Google I/O 2026 hat Google CEO Sundar Pichai Gemini Omni vorgestellt, eine neue Familie multimodaler Modelle, die das ursprüngliche Versprechen von Gemini einlösen soll: ein einziges neuronales Netz, das Text, Bild, Audio und Video versteht und erzeugt. Anders als das bereits existierende Videomodell Veo geht Omni laut Nicole Brichtova, Director of Product Management bei Google DeepMind, einen Schritt weiter: Es kombiniert die Reasoning-Fähigkeiten von Gemini mit den Rendering-Kapazitäten der Medienmodelle. Ein Demo-Beispiel: Auf den Prompt „a claymation explainer of protein folding" erzeugte Omni eigenständig ein Stop-Motion-Video inklusive passendem Voice-over. Das erste veröffentlichte Modell, Gemini Omni Flash, rendert Videos von bis zu 10 Sekunden – eine bewusste Produktentscheidung, keine technische Limitierung. Flash ist ab sofort in der Gemini App, YouTube Shorts und dem KI-Kreativstudio Flow verfügbar; eine API folgt in den nächsten Wochen. Für professionellere Anwendungsfälle ist Gemini Omni Pro in Vorbereitung, ohne konkreten Erscheinungstermin. Alle erzeugten Videos erhalten automatisch Googles SynthID-Wasserzeichen. Digitale Avatare – vergleichbar mit dem Cameos-Feature des inzwischen eingestellten OpenAI-Sora-App – sind bereits heute auf YouTube Shorts nutzbar, erfordern aber einen Onboarding-Prozess zur Deepfake-Prävention.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.