Triton-MoE-Dispatch-Kernel erreicht 131 % von Megablocks – läuft auf AMD ohne Codeänderungen

Warum es zählt

Wer MoE-Inferenz (z. B. Mixtral-8x7B) portabler und speichereffizienter gestalten will, bekommt hier einen praxisnahen Triton-Ansatz, der CUDA-spezifische Bibliotheken auf Augenhöhe herausfordert und gleichzeitig AMD-Hardware abdeckt – ohne doppelten Codepfad.

— Lumeric Redaktion

Nutzer bassrehab (Subhadip Mitra) hat einen fusionierten MoE-Dispatch-Kernel vollständig in Triton implementiert – ohne eine einzige Zeile CUDA. Zielmodell der Benchmarks ist Mixtral-8x7B auf einer NVIDIA A100. Der entscheidende Optimierungskniff: Gate- und Up-Projektion werden fusioniert, sodass der SwiGLU-Zwischenwert nie in den globalen Speicher geschrieben wird. Das reduziert den globalen Speichertransfer um 35 %. Zusätzlich sinkt die Anzahl der Kernel-Launches von 24+ auf 5, was aber laut Autor weniger zur Gesamtverbesserung beiträgt. Gegenüber Megablocks – Stanfords CUDA-optimierter MoE-Bibliothek – erreicht der Kernel bei Batch-Größen bis 512 Token 89–131 % der Performance. Derselbe Triton-Code läuft ohne Änderungen auf AMD MI300X, wobei die AMD-Seite noch unoptimiert ist. Einschränkungen: Ab 2048+ Token fällt der Kernel hinter Megablocks zurück; bei 64+ Experten mit starkem Routing-Skew (Stichwort DeepSeek-V3-Skalierung) ist die Leistung noch unzureichend. Code, Writeup und ein arXiv-Paper (2605.23911) sind öffentlich verfügbar.

Was wir noch wissen

Fusionierung von Gate+Up-Projektion eliminiert SwiGLU-Zwischenpuffer aus dem globalen Speicher — 35 % weniger Memory-Traffic
Kernel-Launches reduziert von 24+ auf 5; Einfluss auf Performance laut Autor geringer als die Fusionierung
Benchmark-Modell: Mixtral-8x7B auf NVIDIA A100, Batch-Größen bis 512 Token getestet
AMD MI300X: gleicher Kernel, null Codeänderungen — AMD-Pfad laut Autor noch nicht optimiert
Schwäche bei ≥2048 Token und ≥64 Experten mit Routing-Skew; DeepSeek-V3-Skalierung noch nicht erreicht

Quelle lesenreddit.com

89–131 % von Megablocks

Inferenz-Throughput bei bis zu 512 Token

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Triton-MoE-Dispatch-Kernel erreicht 131 % von Megablocks – läuft auf AMD ohne Codeänderungen

ToolsNVIDIA Hardware DeepSeek Mistral

CompaniesDeepSeek NVIDIA Mistral AI AMD

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Fusionierung von Gate+Up-Projektion eliminiert SwiGLU-Zwischenpuffer aus dem globalen Speicher — 35 % weniger Memory-Traffic
Kernel-Launches reduziert von 24+ auf 5; Einfluss auf Performance laut Autor geringer als die Fusionierung
Benchmark-Modell: Mixtral-8x7B auf NVIDIA A100, Batch-Größen bis 512 Token getestet
AMD MI300X: gleicher Kernel, null Codeänderungen — AMD-Pfad laut Autor noch nicht optimiert
Schwäche bei ≥2048 Token und ≥64 Experten mit Routing-Skew; DeepSeek-V3-Skalierung noch nicht erreicht

89–131 % von Megablocks

Inferenz-Throughput bei bis zu 512 Token

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Triton-MoE-Dispatch-Kernel erreicht 131 % von Megablocks – läuft auf AMD ohne Codeänderungen

Frag die KI zum Artikel

Verwandte Beiträge

Triton-MoE-Dispatch-Kernel erreicht 131 % von Megablocks – läuft auf AMD ohne Codeänderungen

Frag die KI zum Artikel

Verwandte Beiträge