Kwai veröffentlicht Keye-VL-2.0-30B-A3B mit DSA-Attention für Long-Video-Verständnis
Keye-VL-2.0-30B-A3B ist das neueste Flagship-Basismodell der Keye-Reihe von Kwai und adressiert primär zwei Ziele: die Erweiterung der Fähigkeiten zur Verarbeitung langer Videos sowie die Einführung erster Agent-Funktionalitäten innerhalb der Modellfamilie. Als technisches Alleinstellungsmerkmal wird DSA-Attention (Dynamic Sparse Attention) genannt, die nach Angaben der Entwickler erstmals in einem multimodalen Modell eingesetzt wird. Das Modell hat 30 Milliarden Parameter bei einer aktiven Parameterzahl von 3 Milliarden (MoE-Architektur, 30B-A3B). Das Modell ist auf Hugging Face unter dem Handle Kwai-Keye verfügbar. Konkrete Benchmark-Zahlen oder Vergleichswerte gegenüber anderen VLMs wurden im vorliegenden Reddit-Post nicht genannt.
- 30B-Klasse-Modell mit MoE-Architektur: 30B Gesamtparameter, 3B aktive Parameter (30B-A3B).
- DSA-Attention erstmals in einem multimodalen Modell eingesetzt – laut Entwicklern eine Premiere.
- Primärer Fokus auf Long-Video-Understanding als Kernkompetenz.
- Erste Generation von Agent-Fähigkeiten innerhalb der Keye-Modellfamilie integriert.
- Modell-Weights öffentlich auf Hugging Face unter Kwai-Keye/Keye-VL-2.0-30B-A3B verfügbar.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGhuggingface.co1d
LLaVA-OneVision-2: Multimodales Modell mit Codec-Stream-Tokenisierung und Windowed Attention
- FORSCHUNGarxiv.org2w
VideoSEAL: Entkoppeltes Planner-Inspector-Framework für Long-Video-QA
- FORSCHUNGarxiv.org1w
VideoSeeker: Agentisches Framework für präzises spatiotemporales Video-Verständnis
Kwai veröffentlicht Keye-VL-2.0-30B-A3B mit DSA-Attention für Long-Video-Verständnis
Keye-VL-2.0-30B-A3B ist das neueste Flagship-Basismodell der Keye-Reihe von Kwai und adressiert primär zwei Ziele: die Erweiterung der Fähigkeiten zur Verarbeitung langer Videos sowie die Einführung erster Agent-Funktionalitäten innerhalb der Modellfamilie. Als technisches Alleinstellungsmerkmal wird DSA-Attention (Dynamic Sparse Attention) genannt, die nach Angaben der Entwickler erstmals in einem multimodalen Modell eingesetzt wird. Das Modell hat 30 Milliarden Parameter bei einer aktiven Parameterzahl von 3 Milliarden (MoE-Architektur, 30B-A3B). Das Modell ist auf Hugging Face unter dem Handle Kwai-Keye verfügbar. Konkrete Benchmark-Zahlen oder Vergleichswerte gegenüber anderen VLMs wurden im vorliegenden Reddit-Post nicht genannt.
- 30B-Klasse-Modell mit MoE-Architektur: 30B Gesamtparameter, 3B aktive Parameter (30B-A3B).
- DSA-Attention erstmals in einem multimodalen Modell eingesetzt – laut Entwicklern eine Premiere.
- Primärer Fokus auf Long-Video-Understanding als Kernkompetenz.
- Erste Generation von Agent-Fähigkeiten innerhalb der Keye-Modellfamilie integriert.
- Modell-Weights öffentlich auf Hugging Face unter Kwai-Keye/Keye-VL-2.0-30B-A3B verfügbar.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGhuggingface.co1d
LLaVA-OneVision-2: Multimodales Modell mit Codec-Stream-Tokenisierung und Windowed Attention
- FORSCHUNGarxiv.org2w
VideoSEAL: Entkoppeltes Planner-Inspector-Framework für Long-Video-QA
- FORSCHUNGarxiv.org1w
VideoSeeker: Agentisches Framework für präzises spatiotemporales Video-Verständnis