Qwen Team veröffentlicht FlashQLA: Bis zu 3× Speedup für Linear Attention auf NVIDIA Hopper GPUs

Warum es zählt

FlashQLA optimiert Forward- und Backward-Passes für lineare Attention-Architekturen und adressiert damit sowohl Large-Scale-Pretraining als auch Edge-Inference – relevant für alle, die auf GDN-basierte Modelle oder effiziente Inferenz-Pipelines setzen.

— Lumeric Redaktion

Das QwenLM-Team hat FlashQLA (Flash Qwen Linear Attention) als Open-Source-Kernel-Bibliothek veröffentlicht, die speziell auf die Beschleunigung von Gated Delta Network (GDN) Chunked Prefill ausgelegt ist. Im Fokus stehen sowohl der Forward- als auch der Backward-Pass, was die Bibliothek sowohl für das Training großer Sprachmodelle als auch für die Inferenz relevant macht. Als Zielplattform dienen NVIDIA Hopper GPUs – also H100 und verwandte Architekturen – auf denen FlashQLA einen Speedup von bis zu 3× gegenüber Referenzimplementierungen erreicht. Lineare Attention-Mechanismen gelten als vielversprechende Alternative zur klassischen Softmax-Attention, da sie die quadratische Komplexität bei langen Kontexten vermeiden. GDN erweitert dieses Konzept um Gating-Mechanismen, die die Ausdrucksstärke erhöhen. FlashQLA adressiert explizit Edge-seitige agentische Inferenz-Szenarien – ein wachsendes Einsatzfeld für kompakte, schnelle Modelle außerhalb der Cloud-Infrastruktur.

Was wir noch wissen

Zielplattform: NVIDIA Hopper GPUs (H100-Generation), kein Support für ältere Architekturen explizit genannt.
Unterstützt Forward- und Backward-Pass von GDN Chunked Prefill – damit trainings- und inferenztauglich.
Anwendungsszenarien: Large-Scale-Pretraining und Edge-Side Agentic Inference.
Lineare Attention umgeht die quadratische Komplexität klassischer Softmax-Attention bei langen Sequenzen.
Veröffentlichung durch das QwenLM-Team (Alibaba/Tongyi), das bereits die Qwen-Modellreihe betreut.

Quelle lesenmarktechpost.com

3× Speedup

auf NVIDIA Hopper GPUs (H100)

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen Team veröffentlicht FlashQLA: Bis zu 3× Speedup für Linear Attention auf NVIDIA Hopper GPUs

ToolsQwen NVIDIA Hardware

CompaniesAlibaba (Qwen)NVIDIA

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Zielplattform: NVIDIA Hopper GPUs (H100-Generation), kein Support für ältere Architekturen explizit genannt.
Unterstützt Forward- und Backward-Pass von GDN Chunked Prefill – damit trainings- und inferenztauglich.
Anwendungsszenarien: Large-Scale-Pretraining und Edge-Side Agentic Inference.
Lineare Attention umgeht die quadratische Komplexität klassischer Softmax-Attention bei langen Sequenzen.
Veröffentlichung durch das QwenLM-Team (Alibaba/Tongyi), das bereits die Qwen-Modellreihe betreut.

3× Speedup

auf NVIDIA Hopper GPUs (H100)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen Team veröffentlicht FlashQLA: Bis zu 3× Speedup für Linear Attention auf NVIDIA Hopper GPUs

Frag die KI zum Artikel

Verwandte Beiträge

Qwen Team veröffentlicht FlashQLA: Bis zu 3× Speedup für Linear Attention auf NVIDIA Hopper GPUs

Frag die KI zum Artikel

Verwandte Beiträge