vLLM integriert nativen HIP W4A16-Kernel für ROCm-GPUs

Warum es zählt

AMD-ROCm-Nutzer erhalten mit dem RDNA3 W4A16-Kernel einen bis zu 5×höheren Inferenz-Durchsatz gegenüber dem bisherigen Triton-W4A16-Pfad in vLLM, womit lokale LLM-Setups auf AMD-GPUs deutlich wettbewerbsfähiger werden.

— Lumeric Redaktion

Ein von der Community eingereichter Pull Request für vLLM, das weit verbreitete Open-Source-Inferenz-Framework, wurde gemergt und bringt einen nativen HIP-basierten W4A16-Quantisierungs-Kernel speziell für AMDs RDNA3-Architektur. Die Benchmark-Zahlen aus dem PR zeigen eindrückliche Verbesserungen: Während der bisherige Triton-W4A16-Kernel bei fp16 lediglich 83,2 Tokens pro Sekunde (tk/s) bei max-num-seqs=8 erreichte, liefert der neue RDNA3-Kernel unter gleichen Bedingungen 270,2 tk/s – ein mehr als 3-facher Zuwachs. Bei größeren Batches (max-num-seqs=32) steigt der Durchsatz sogar auf 445,7 tk/s (fp16) bzw. 382,5 tk/s (bf16), womit der neue Kernel die ExLlama-Implementierung ebenfalls übertrifft. Der Post stammt von Reddit-Nutzer StupidityCanFly aus der r/LocalLLaMA-Community und verweist auf den vollständigen PR. Die Änderung ist besonders relevant für Nutzer, die lokale LLMs auf AMD-ROCm-Rigs betreiben, da diese Plattform bisher gegenüber NVIDIA-Hardware deutliche Inferenz-Nachteile hatte.

Quelle lesenreddit.com

vLLM W4A16 Kernel-Durchsatz (max-num-seqs=32, fp16) · Spitzenwert

83.2%

Triton W4A16 fp16

Inferenz Infra Open Source Chips Silizium

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

vLLM integriert nativen HIP W4A16-Kernel für ROCm-GPUs

ToolsNVIDIA Hardware

CompaniesNVIDIA AMD

Warum es zählt

— Lumeric Redaktion

vLLM W4A16 Kernel-Durchsatz (max-num-seqs=32, fp16) · Spitzenwert

83.2%

Triton W4A16 fp16

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

vLLM integriert nativen HIP W4A16-Kernel für ROCm-GPUs

Frag die KI zum Artikel

Verwandte Beiträge

vLLM integriert nativen HIP W4A16-Kernel für ROCm-GPUs

Frag die KI zum Artikel

Verwandte Beiträge