Sakana AI & NVIDIA: TwELL beschleunigt LLM-Inferenz um 20,5 % und Training um 21,9 %

Warum es zählt

TwELL liefert messbare Inferenz- und Trainingsbeschleunigungen ohne nennenswerten Qualitätsverlust – für LLM-Deployments auf NVIDIA-Hardware eine direkt verwertbare Optimierung ohne Architekturumbau.

— Lumeric Redaktion

Sakana AI und NVIDIA präsentieren TwELL (Twice-Efficient Large Language Models), einen Ansatz zur strukturierten Sparsifizierung von Large Language Models. Der Kern der Methode ist verblüffend simpel: L1-Regularisierung auf die Gewichte der Feedforward-Schichten (FFN) drängt mehr als 99 % der Aktivierungen gegen null – ohne die Downstream-Performance nennenswert zu beeinträchtigen. Um diese theoretische Sparsity in reale Laufzeitgewinne auf GPU umzumünzen, entwickelten die Forscher neue sparse Datenformate sowie speziell optimierte, fusionierte CUDA-Kernel. Das Ergebnis: 20,5 % schnellere Inferenz und 21,9 % schnelleres Training gegenüber dichten Baselines. Besonders relevant ist, dass die Gewinne sowohl im Training als auch im Serving greifen – übliche Sparsity-Methoden scheitern oft daran, tatsächlichen Hardware-Durchsatz zu steigern. TwELL überbrückt diese Lücke durch hardwarenahe Implementierung direkt auf NVIDIA-GPUs.

Was wir noch wissen

L1-Regularisierung induziert >99 % Sparsity in FFN-Schichten von LLMs
Sparsity wird durch neue sparse Datenformate und fusionierte CUDA-Kernel auf echten GPU-Durchsatz abgebildet
20,5 % Inferenz-Speedup und 21,9 % Trainings-Speedup gegenüber dichten Baselines
Negligible Qualitätsverlust auf Downstream-Tasks trotz extremer Sparsity
Kooperation zwischen Sakana AI und NVIDIA Research

Quelle lesenmarktechpost.com

21,9 % Speed-up

Trainings-Beschleunigung durch TwELL

Foundation Modelle Inferenz Infra Chips Silizium

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Sakana AI & NVIDIA: TwELL beschleunigt LLM-Inferenz um 20,5 % und Training um 21,9 %

ToolsNVIDIA Hardware

CompaniesNVIDIA Sakana AI

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

L1-Regularisierung induziert >99 % Sparsity in FFN-Schichten von LLMs
Sparsity wird durch neue sparse Datenformate und fusionierte CUDA-Kernel auf echten GPU-Durchsatz abgebildet
20,5 % Inferenz-Speedup und 21,9 % Trainings-Speedup gegenüber dichten Baselines
Negligible Qualitätsverlust auf Downstream-Tasks trotz extremer Sparsity
Kooperation zwischen Sakana AI und NVIDIA Research

21,9 % Speed-up

Trainings-Beschleunigung durch TwELL

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Sakana AI & NVIDIA: TwELL beschleunigt LLM-Inferenz um 20,5 % und Training um 21,9 %

Frag die KI zum Artikel

Verwandte Beiträge

Sakana AI & NVIDIA: TwELL beschleunigt LLM-Inferenz um 20,5 % und Training um 21,9 %

Frag die KI zum Artikel

Verwandte Beiträge