
Qwen Team veröffentlicht FlashQLA: Bis zu 3× Speedup für Linear Attention auf NVIDIA Hopper GPUs
Das QwenLM-Team hat FlashQLA (Flash Qwen Linear Attention) als Open-Source-Kernel-Bibliothek veröffentlicht, die speziell auf die Beschleunigung von Gated Delta Network (GDN) Chunked Prefill ausgelegt ist. Im Fokus stehen sowohl der Forward- als auch der Backward-Pass, was die Bibliothek sowohl für das Training großer Sprachmodelle als auch für die Inferenz relevant macht. Als Zielplattform dienen NVIDIA Hopper GPUs – also H100 und verwandte Architekturen – auf denen FlashQLA einen Speedup von bis zu 3× gegenüber Referenzimplementierungen erreicht. Lineare Attention-Mechanismen gelten als vielversprechende Alternative zur klassischen Softmax-Attention, da sie die quadratische Komplexität bei langen Kontexten vermeiden. GDN erweitert dieses Konzept um Gating-Mechanismen, die die Ausdrucksstärke erhöhen. FlashQLA adressiert explizit Edge-seitige agentische Inferenz-Szenarien – ein wachsendes Einsatzfeld für kompakte, schnelle Modelle außerhalb der Cloud-Infrastruktur.
- Zielplattform: NVIDIA Hopper GPUs (H100-Generation), kein Support für ältere Architekturen explizit genannt.
- Unterstützt Forward- und Backward-Pass von GDN Chunked Prefill – damit trainings- und inferenztauglich.
- Anwendungsszenarien: Large-Scale-Pretraining und Edge-Side Agentic Inference.
- Lineare Attention umgeht die quadratische Komplexität klassischer Softmax-Attention bei langen Sequenzen.
- Veröffentlichung durch das QwenLM-Team (Alibaba/Tongyi), das bereits die Qwen-Modellreihe betreut.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com2w
ExLlamaV3 erhält DFlash-Support mit bis zu 3× Inferenz-Speedup
- LAUNCHreddit.com3w
PFlash: 10× schnelleres Prefill bei 128K-Kontext auf RTX 3090
- LAUNCHmarktechpost.com3w
Moonshot AI veröffentlicht FlashKDA: CUTLASS-Kernel für Kimi Delta Attention
- LAUNCHdeveloper.nvidia.com1d
NVIDIA CompileIQ automatisiert Compiler-Tuning für GPU-Kernel

Qwen Team veröffentlicht FlashQLA: Bis zu 3× Speedup für Linear Attention auf NVIDIA Hopper GPUs
Das QwenLM-Team hat FlashQLA (Flash Qwen Linear Attention) als Open-Source-Kernel-Bibliothek veröffentlicht, die speziell auf die Beschleunigung von Gated Delta Network (GDN) Chunked Prefill ausgelegt ist. Im Fokus stehen sowohl der Forward- als auch der Backward-Pass, was die Bibliothek sowohl für das Training großer Sprachmodelle als auch für die Inferenz relevant macht. Als Zielplattform dienen NVIDIA Hopper GPUs – also H100 und verwandte Architekturen – auf denen FlashQLA einen Speedup von bis zu 3× gegenüber Referenzimplementierungen erreicht. Lineare Attention-Mechanismen gelten als vielversprechende Alternative zur klassischen Softmax-Attention, da sie die quadratische Komplexität bei langen Kontexten vermeiden. GDN erweitert dieses Konzept um Gating-Mechanismen, die die Ausdrucksstärke erhöhen. FlashQLA adressiert explizit Edge-seitige agentische Inferenz-Szenarien – ein wachsendes Einsatzfeld für kompakte, schnelle Modelle außerhalb der Cloud-Infrastruktur.
- Zielplattform: NVIDIA Hopper GPUs (H100-Generation), kein Support für ältere Architekturen explizit genannt.
- Unterstützt Forward- und Backward-Pass von GDN Chunked Prefill – damit trainings- und inferenztauglich.
- Anwendungsszenarien: Large-Scale-Pretraining und Edge-Side Agentic Inference.
- Lineare Attention umgeht die quadratische Komplexität klassischer Softmax-Attention bei langen Sequenzen.
- Veröffentlichung durch das QwenLM-Team (Alibaba/Tongyi), das bereits die Qwen-Modellreihe betreut.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com2w
ExLlamaV3 erhält DFlash-Support mit bis zu 3× Inferenz-Speedup
- LAUNCHreddit.com3w
PFlash: 10× schnelleres Prefill bei 128K-Kontext auf RTX 3090
- LAUNCHmarktechpost.com3w
Moonshot AI veröffentlicht FlashKDA: CUTLASS-Kernel für Kimi Delta Attention
- LAUNCHdeveloper.nvidia.com1d
NVIDIA CompileIQ automatisiert Compiler-Tuning für GPU-Kernel