Triton-MoE-Dispatch-Kernel erreicht 131 % von Megablocks – läuft auf AMD ohne Codeänderungen
Nutzer bassrehab (Subhadip Mitra) hat einen fusionierten MoE-Dispatch-Kernel vollständig in Triton implementiert – ohne eine einzige Zeile CUDA. Zielmodell der Benchmarks ist Mixtral-8x7B auf einer NVIDIA A100. Der entscheidende Optimierungskniff: Gate- und Up-Projektion werden fusioniert, sodass der SwiGLU-Zwischenwert nie in den globalen Speicher geschrieben wird. Das reduziert den globalen Speichertransfer um 35 %. Zusätzlich sinkt die Anzahl der Kernel-Launches von 24+ auf 5, was aber laut Autor weniger zur Gesamtverbesserung beiträgt. Gegenüber Megablocks – Stanfords CUDA-optimierter MoE-Bibliothek – erreicht der Kernel bei Batch-Größen bis 512 Token 89–131 % der Performance. Derselbe Triton-Code läuft ohne Änderungen auf AMD MI300X, wobei die AMD-Seite noch unoptimiert ist. Einschränkungen: Ab 2048+ Token fällt der Kernel hinter Megablocks zurück; bei 64+ Experten mit starkem Routing-Skew (Stichwort DeepSeek-V3-Skalierung) ist die Leistung noch unzureichend. Code, Writeup und ein arXiv-Paper (2605.23911) sind öffentlich verfügbar.
- Fusionierung von Gate+Up-Projektion eliminiert SwiGLU-Zwischenpuffer aus dem globalen Speicher — 35 % weniger Memory-Traffic
- Kernel-Launches reduziert von 24+ auf 5; Einfluss auf Performance laut Autor geringer als die Fusionierung
- Benchmark-Modell: Mixtral-8x7B auf NVIDIA A100, Batch-Größen bis 512 Token getestet
- AMD MI300X: gleicher Kernel, null Codeänderungen — AMD-Pfad laut Autor noch nicht optimiert
- Schwäche bei ≥2048 Token und ≥64 Experten mit Routing-Skew; DeepSeek-V3-Skalierung noch nicht erreicht
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Triton-MoE-Dispatch-Kernel erreicht 131 % von Megablocks – läuft auf AMD ohne Codeänderungen
Nutzer bassrehab (Subhadip Mitra) hat einen fusionierten MoE-Dispatch-Kernel vollständig in Triton implementiert – ohne eine einzige Zeile CUDA. Zielmodell der Benchmarks ist Mixtral-8x7B auf einer NVIDIA A100. Der entscheidende Optimierungskniff: Gate- und Up-Projektion werden fusioniert, sodass der SwiGLU-Zwischenwert nie in den globalen Speicher geschrieben wird. Das reduziert den globalen Speichertransfer um 35 %. Zusätzlich sinkt die Anzahl der Kernel-Launches von 24+ auf 5, was aber laut Autor weniger zur Gesamtverbesserung beiträgt. Gegenüber Megablocks – Stanfords CUDA-optimierter MoE-Bibliothek – erreicht der Kernel bei Batch-Größen bis 512 Token 89–131 % der Performance. Derselbe Triton-Code läuft ohne Änderungen auf AMD MI300X, wobei die AMD-Seite noch unoptimiert ist. Einschränkungen: Ab 2048+ Token fällt der Kernel hinter Megablocks zurück; bei 64+ Experten mit starkem Routing-Skew (Stichwort DeepSeek-V3-Skalierung) ist die Leistung noch unzureichend. Code, Writeup und ein arXiv-Paper (2605.23911) sind öffentlich verfügbar.
- Fusionierung von Gate+Up-Projektion eliminiert SwiGLU-Zwischenpuffer aus dem globalen Speicher — 35 % weniger Memory-Traffic
- Kernel-Launches reduziert von 24+ auf 5; Einfluss auf Performance laut Autor geringer als die Fusionierung
- Benchmark-Modell: Mixtral-8x7B auf NVIDIA A100, Batch-Größen bis 512 Token getestet
- AMD MI300X: gleicher Kernel, null Codeänderungen — AMD-Pfad laut Autor noch nicht optimiert
- Schwäche bei ≥2048 Token und ≥64 Experten mit Routing-Skew; DeepSeek-V3-Skalierung noch nicht erreicht
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.