
Sakana AI & NVIDIA: TwELL beschleunigt LLM-Inferenz um 20,5 % und Training um 21,9 %
Sakana AI und NVIDIA präsentieren TwELL (Twice-Efficient Large Language Models), einen Ansatz zur strukturierten Sparsifizierung von Large Language Models. Der Kern der Methode ist verblüffend simpel: L1-Regularisierung auf die Gewichte der Feedforward-Schichten (FFN) drängt mehr als 99 % der Aktivierungen gegen null – ohne die Downstream-Performance nennenswert zu beeinträchtigen. Um diese theoretische Sparsity in reale Laufzeitgewinne auf GPU umzumünzen, entwickelten die Forscher neue sparse Datenformate sowie speziell optimierte, fusionierte CUDA-Kernel. Das Ergebnis: 20,5 % schnellere Inferenz und 21,9 % schnelleres Training gegenüber dichten Baselines. Besonders relevant ist, dass die Gewinne sowohl im Training als auch im Serving greifen – übliche Sparsity-Methoden scheitern oft daran, tatsächlichen Hardware-Durchsatz zu steigern. TwELL überbrückt diese Lücke durch hardwarenahe Implementierung direkt auf NVIDIA-GPUs.
- L1-Regularisierung induziert >99 % Sparsity in FFN-Schichten von LLMs
- Sparsity wird durch neue sparse Datenformate und fusionierte CUDA-Kernel auf echten GPU-Durchsatz abgebildet
- 20,5 % Inferenz-Speedup und 21,9 % Trainings-Speedup gegenüber dichten Baselines
- Negligible Qualitätsverlust auf Downstream-Tasks trotz extremer Sparsity
- Kooperation zwischen Sakana AI und NVIDIA Research
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
Sparsity-Methode steigert LLM-Durchsatz mit über 99% Dünnbesetzung
- LAUNCHunsloth.ai3w
Unsloth und NVIDIA optimieren LLM-Training um zusätzliche 25%
- FORSCHUNGarxiv.org0mo
Pipelined Sharding: 30× TPS-Boost für LLM-Inferenz auf Client-GPUs mit limitiertem VRAM
- FORSCHUNGarxiv.org1w
STOF: Framework beschleunigt Sparse-Transformer-Inferenz auf GPU um bis zu 1,6×

Sakana AI & NVIDIA: TwELL beschleunigt LLM-Inferenz um 20,5 % und Training um 21,9 %
Sakana AI und NVIDIA präsentieren TwELL (Twice-Efficient Large Language Models), einen Ansatz zur strukturierten Sparsifizierung von Large Language Models. Der Kern der Methode ist verblüffend simpel: L1-Regularisierung auf die Gewichte der Feedforward-Schichten (FFN) drängt mehr als 99 % der Aktivierungen gegen null – ohne die Downstream-Performance nennenswert zu beeinträchtigen. Um diese theoretische Sparsity in reale Laufzeitgewinne auf GPU umzumünzen, entwickelten die Forscher neue sparse Datenformate sowie speziell optimierte, fusionierte CUDA-Kernel. Das Ergebnis: 20,5 % schnellere Inferenz und 21,9 % schnelleres Training gegenüber dichten Baselines. Besonders relevant ist, dass die Gewinne sowohl im Training als auch im Serving greifen – übliche Sparsity-Methoden scheitern oft daran, tatsächlichen Hardware-Durchsatz zu steigern. TwELL überbrückt diese Lücke durch hardwarenahe Implementierung direkt auf NVIDIA-GPUs.
- L1-Regularisierung induziert >99 % Sparsity in FFN-Schichten von LLMs
- Sparsity wird durch neue sparse Datenformate und fusionierte CUDA-Kernel auf echten GPU-Durchsatz abgebildet
- 20,5 % Inferenz-Speedup und 21,9 % Trainings-Speedup gegenüber dichten Baselines
- Negligible Qualitätsverlust auf Downstream-Tasks trotz extremer Sparsity
- Kooperation zwischen Sakana AI und NVIDIA Research
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
Sparsity-Methode steigert LLM-Durchsatz mit über 99% Dünnbesetzung
- LAUNCHunsloth.ai3w
Unsloth und NVIDIA optimieren LLM-Training um zusätzliche 25%
- FORSCHUNGarxiv.org0mo
Pipelined Sharding: 30× TPS-Boost für LLM-Inferenz auf Client-GPUs mit limitiertem VRAM
- FORSCHUNGarxiv.org1w
STOF: Framework beschleunigt Sparse-Transformer-Inferenz auf GPU um bis zu 1,6×