Kwai veröffentlicht Keye-VL-2.0-30B-A3B mit DSA-Attention für Long-Video-Verständnis

Warum es zählt

DSA-Attention wird hier erstmals in ein multimodales Modell integriert, was potenziell effizientere Verarbeitung langer Videosequenzen ermöglicht – relevant für Entwickler, die Video-Agents oder Long-Context-VLM-Pipelines aufbauen.

— Lumeric Redaktion

Keye-VL-2.0-30B-A3B ist das neueste Flagship-Basismodell der Keye-Reihe von Kwai und adressiert primär zwei Ziele: die Erweiterung der Fähigkeiten zur Verarbeitung langer Videos sowie die Einführung erster Agent-Funktionalitäten innerhalb der Modellfamilie. Als technisches Alleinstellungsmerkmal wird DSA-Attention (Dynamic Sparse Attention) genannt, die nach Angaben der Entwickler erstmals in einem multimodalen Modell eingesetzt wird. Das Modell hat 30 Milliarden Parameter bei einer aktiven Parameterzahl von 3 Milliarden (MoE-Architektur, 30B-A3B). Das Modell ist auf Hugging Face unter dem Handle Kwai-Keye verfügbar. Konkrete Benchmark-Zahlen oder Vergleichswerte gegenüber anderen VLMs wurden im vorliegenden Reddit-Post nicht genannt.

Was wir noch wissen

30B-Klasse-Modell mit MoE-Architektur: 30B Gesamtparameter, 3B aktive Parameter (30B-A3B).
DSA-Attention erstmals in einem multimodalen Modell eingesetzt – laut Entwicklern eine Premiere.
Primärer Fokus auf Long-Video-Understanding als Kernkompetenz.
Erste Generation von Agent-Fähigkeiten innerhalb der Keye-Modellfamilie integriert.
Modell-Weights öffentlich auf Hugging Face unter Kwai-Keye/Keye-VL-2.0-30B-A3B verfügbar.

Quelle lesenreddit.com

Multimodal Foundation Modelle Agents

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Kwai veröffentlicht Keye-VL-2.0-30B-A3B mit DSA-Attention für Long-Video-Verständnis

ToolsHugging Face

CompaniesHugging Face

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

30B-Klasse-Modell mit MoE-Architektur: 30B Gesamtparameter, 3B aktive Parameter (30B-A3B).
DSA-Attention erstmals in einem multimodalen Modell eingesetzt – laut Entwicklern eine Premiere.
Primärer Fokus auf Long-Video-Understanding als Kernkompetenz.
Erste Generation von Agent-Fähigkeiten innerhalb der Keye-Modellfamilie integriert.
Modell-Weights öffentlich auf Hugging Face unter Kwai-Keye/Keye-VL-2.0-30B-A3B verfügbar.

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Kwai veröffentlicht Keye-VL-2.0-30B-A3B mit DSA-Attention für Long-Video-Verständnis

Frag die KI zum Artikel

Verwandte Beiträge

Kwai veröffentlicht Keye-VL-2.0-30B-A3B mit DSA-Attention für Long-Video-Verständnis

Frag die KI zum Artikel

Verwandte Beiträge