Meituan veröffentlicht LongCat-Video-Avatar 1.5 für audiogesteuerte Videosynthese
LongCat-Video-Avatar 1.5 ist das aktualisierte Avatar-Framework von Meituan, aufgebaut auf dem LongCat-Video-Basismodell. Die wichtigste Neuerung gegenüber dem Vorgänger ist der Wechsel des Audio-Encoders von Wav2Vec2 zu Whisper-Large, was laut Hersteller deutlich natürlichere Lippenbewegungen erzeugt. Das Framework unterstützt nativ drei Aufgaben: Audio-Text-to-Video (AT2V), Audio-Text-Image-to-Video (ATI2V) und Video Continuation, jeweils mit Single- und Multi-Stream-Audioeingaben. Für die Evaluation wurde ein eigener Human-Evaluation-Benchmark mit 508 Bild-Audio-Paaren aus 6 Anwendungsszenarien (u. a. Nachrichtensendung, Gesang, Werbung), zwei Sprachen (Chinesisch/Englisch) und zwei Bildstilen (realistisch/animiert) erstellt. 770 Crowdsourcing-Bewerter vergaben Bewertungen auf einer 1–5-Skala, was insgesamt 13.240 Urteile ergab; zusätzlich analysierten 10 Fachexperten Qualitätsdimensionen wie Temporal Stability und Identity Consistency. Das Modell wird unter MIT-Lizenz veröffentlicht.
- Whisper-Large ersetzt Wav2Vec2 als Audio-Encoder für natürlichere Lippendynamik
- DMD2-basierte Step-Distillation reduziert Inferenz auf 8 NFE (Number of Function Evaluations)
- Benchmark umfasst 508 Bild-Audio-Paare, 6 Szenarien, 2 Sprachen, 2 Bildstile
- 770 Crowdsourcer lieferten 13.240 Bewertungen auf einer 1–5-Menschlichkeitsskala
- Modellgewichte werden unter MIT-Lizenz veröffentlicht
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGhuggingface.co3w
Talker-T2AV: Autoregressive Diffusion für synchrone Audio-Video-Generierung
- FORSCHUNGarxiv.org1w
Lance: Leichtgewichtiges Unified-Modell für multimodales Verstehen und Generieren
- FORSCHUNGhuggingface.co6d
FlowLong: Training-freie Methode für lange Videogenerierung via Tweedie Matching
Meituan veröffentlicht LongCat-Video-Avatar 1.5 für audiogesteuerte Videosynthese
LongCat-Video-Avatar 1.5 ist das aktualisierte Avatar-Framework von Meituan, aufgebaut auf dem LongCat-Video-Basismodell. Die wichtigste Neuerung gegenüber dem Vorgänger ist der Wechsel des Audio-Encoders von Wav2Vec2 zu Whisper-Large, was laut Hersteller deutlich natürlichere Lippenbewegungen erzeugt. Das Framework unterstützt nativ drei Aufgaben: Audio-Text-to-Video (AT2V), Audio-Text-Image-to-Video (ATI2V) und Video Continuation, jeweils mit Single- und Multi-Stream-Audioeingaben. Für die Evaluation wurde ein eigener Human-Evaluation-Benchmark mit 508 Bild-Audio-Paaren aus 6 Anwendungsszenarien (u. a. Nachrichtensendung, Gesang, Werbung), zwei Sprachen (Chinesisch/Englisch) und zwei Bildstilen (realistisch/animiert) erstellt. 770 Crowdsourcing-Bewerter vergaben Bewertungen auf einer 1–5-Skala, was insgesamt 13.240 Urteile ergab; zusätzlich analysierten 10 Fachexperten Qualitätsdimensionen wie Temporal Stability und Identity Consistency. Das Modell wird unter MIT-Lizenz veröffentlicht.
- Whisper-Large ersetzt Wav2Vec2 als Audio-Encoder für natürlichere Lippendynamik
- DMD2-basierte Step-Distillation reduziert Inferenz auf 8 NFE (Number of Function Evaluations)
- Benchmark umfasst 508 Bild-Audio-Paare, 6 Szenarien, 2 Sprachen, 2 Bildstile
- 770 Crowdsourcer lieferten 13.240 Bewertungen auf einer 1–5-Menschlichkeitsskala
- Modellgewichte werden unter MIT-Lizenz veröffentlicht
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGhuggingface.co3w
Talker-T2AV: Autoregressive Diffusion für synchrone Audio-Video-Generierung
- FORSCHUNGarxiv.org1w
Lance: Leichtgewichtiges Unified-Modell für multimodales Verstehen und Generieren
- FORSCHUNGhuggingface.co6d
FlowLong: Training-freie Methode für lange Videogenerierung via Tweedie Matching