Meituan veröffentlicht LongCat-Video-Avatar 1.5 für audiogesteuerte Videosynthese

Warum es zählt

Das MIT-lizenzierte Modell kombiniert stabiles Lippensync, Ganzkörper-Stabilität und Stilgeneralisierung (Anime, Tiere, Mehrpersonen-Szenen) mit produktionsreifer 8-NFE-Inferenz – damit ist es direkt für kommerzielle Avatar-Pipelines einsetzbar.

— Lumeric Redaktion

LongCat-Video-Avatar 1.5 ist das aktualisierte Avatar-Framework von Meituan, aufgebaut auf dem LongCat-Video-Basismodell. Die wichtigste Neuerung gegenüber dem Vorgänger ist der Wechsel des Audio-Encoders von Wav2Vec2 zu Whisper-Large, was laut Hersteller deutlich natürlichere Lippenbewegungen erzeugt. Das Framework unterstützt nativ drei Aufgaben: Audio-Text-to-Video (AT2V), Audio-Text-Image-to-Video (ATI2V) und Video Continuation, jeweils mit Single- und Multi-Stream-Audioeingaben. Für die Evaluation wurde ein eigener Human-Evaluation-Benchmark mit 508 Bild-Audio-Paaren aus 6 Anwendungsszenarien (u. a. Nachrichtensendung, Gesang, Werbung), zwei Sprachen (Chinesisch/Englisch) und zwei Bildstilen (realistisch/animiert) erstellt. 770 Crowdsourcing-Bewerter vergaben Bewertungen auf einer 1–5-Skala, was insgesamt 13.240 Urteile ergab; zusätzlich analysierten 10 Fachexperten Qualitätsdimensionen wie Temporal Stability und Identity Consistency. Das Modell wird unter MIT-Lizenz veröffentlicht.

Was wir noch wissen

Whisper-Large ersetzt Wav2Vec2 als Audio-Encoder für natürlichere Lippendynamik
DMD2-basierte Step-Distillation reduziert Inferenz auf 8 NFE (Number of Function Evaluations)
Benchmark umfasst 508 Bild-Audio-Paare, 6 Szenarien, 2 Sprachen, 2 Bildstile
770 Crowdsourcer lieferten 13.240 Bewertungen auf einer 1–5-Menschlichkeitsskala
Modellgewichte werden unter MIT-Lizenz veröffentlicht

Quelle lesenreddit.com

Multimodal Open Source Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Meituan veröffentlicht LongCat-Video-Avatar 1.5 für audiogesteuerte Videosynthese

ToolsWhisper Hugging Face

CompaniesHugging Face

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Whisper-Large ersetzt Wav2Vec2 als Audio-Encoder für natürlichere Lippendynamik
DMD2-basierte Step-Distillation reduziert Inferenz auf 8 NFE (Number of Function Evaluations)
Benchmark umfasst 508 Bild-Audio-Paare, 6 Szenarien, 2 Sprachen, 2 Bildstile
770 Crowdsourcer lieferten 13.240 Bewertungen auf einer 1–5-Menschlichkeitsskala
Modellgewichte werden unter MIT-Lizenz veröffentlicht

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Meituan veröffentlicht LongCat-Video-Avatar 1.5 für audiogesteuerte Videosynthese

Frag die KI zum Artikel

Verwandte Beiträge

Meituan veröffentlicht LongCat-Video-Avatar 1.5 für audiogesteuerte Videosynthese

Frag die KI zum Artikel

Verwandte Beiträge