AMD BC-250: PS5-APU als 40-CU-Recheneinheit für unter 150 Dollar entsperrt
Der Reddit-Nutzer dugganmania hat die AMD BC-250 – eine auf Platinen ausgelötete PS5-APU mit Zen-2-CPU, RDNA-2-GPU (gfx1013) und 16 GB einheitlichem GDDR6 – als günstige Inferenz-Plattform untersucht. Boards sind auf eBay für 50–150 Dollar erhältlich, liefern aber serienmäßig nur 24 von 40 Compute Units (CUs). Durch Schreiben der Hardware-Register CC_GC_SHADER_ARRAY_CONFIG und SPI_PG_ENABLE_STATIC_WGP_MASK innerhalb des AMDGPU-Treiber-Initialisierungspfads lassen sich alle 40 CUs aktivieren – beide Register müssen gemeinsam gesetzt werden, einzeln zeigen sie keine Wirkung. Im pp512-Benchmark unter Vulkan und llama.cpp steigt der Durchsatz von 230 tok/s (24 CU, 1500 MHz, 55 W) auf 372 tok/s (40 CU, 1500 MHz, 125 W) und weiter auf 466 tok/s bei 2 GHz Takt, allerdings auf Kosten von 181 W und 96 °C Temperatur. Parallel entwickelt der Autor einen maßgeschneiderten HIP-Kernel für gfx1013, da weder ein nativer Kernel noch Tensile-Optimierungen existieren. Bereits jetzt liefert HIP 48 tok/s gegenüber 30 tok/s unter Vulkan bei einem 9B-Modell; ein neuer MMQ-Kernel brachte bei Q6_K bereits +63 % Prefill-Performance gegenüber der HIP-Baseline. Der Quellcode ist auf GitHub unter duggasco/bc250-40cu-unlock verfügbar.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
AMD BC-250: PS5-APU als 40-CU-Recheneinheit für unter 150 Dollar entsperrt
Der Reddit-Nutzer dugganmania hat die AMD BC-250 – eine auf Platinen ausgelötete PS5-APU mit Zen-2-CPU, RDNA-2-GPU (gfx1013) und 16 GB einheitlichem GDDR6 – als günstige Inferenz-Plattform untersucht. Boards sind auf eBay für 50–150 Dollar erhältlich, liefern aber serienmäßig nur 24 von 40 Compute Units (CUs). Durch Schreiben der Hardware-Register CC_GC_SHADER_ARRAY_CONFIG und SPI_PG_ENABLE_STATIC_WGP_MASK innerhalb des AMDGPU-Treiber-Initialisierungspfads lassen sich alle 40 CUs aktivieren – beide Register müssen gemeinsam gesetzt werden, einzeln zeigen sie keine Wirkung. Im pp512-Benchmark unter Vulkan und llama.cpp steigt der Durchsatz von 230 tok/s (24 CU, 1500 MHz, 55 W) auf 372 tok/s (40 CU, 1500 MHz, 125 W) und weiter auf 466 tok/s bei 2 GHz Takt, allerdings auf Kosten von 181 W und 96 °C Temperatur. Parallel entwickelt der Autor einen maßgeschneiderten HIP-Kernel für gfx1013, da weder ein nativer Kernel noch Tensile-Optimierungen existieren. Bereits jetzt liefert HIP 48 tok/s gegenüber 30 tok/s unter Vulkan bei einem 9B-Modell; ein neuer MMQ-Kernel brachte bei Q6_K bereits +63 % Prefill-Performance gegenüber der HIP-Baseline. Der Quellcode ist auf GitHub unter duggasco/bc250-40cu-unlock verfügbar.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.