Vulkan-Backend schlägt ROCm auf AMD-Strix-Halo um 21% Prozent

CompaniesAMD

Warum es zählt

Für Nutzer mit Strix-Halo-GPUs zeigt sich: Der Vulkan-Treiber kann ROCm bei llama.cpp deutlich übertreffen, was auf ungünstige ROCm-Code-Pfade für diese RDNA-3.5-Hardware hindeutet. Das eröffnet Alternative für lokale Inference-Workloads auf neueren AMD-Chips.

— Lumeric Redaktion

Ein Nutzer mit AMD Radeon 8060S (Strix Halo / gfx1151) vergleicht ROCm- und Vulkan-Backends in llama.cpp beim Inferenz großer Modelle. Auf der Hardware mit 64 GB unified VRAM und Arch Linux zeigt sich Vulkan (Mesa RADV) beim Token-Generieren 21% schneller als ROCm 7.2.2: 51,2 gegenüber 42,3 Tokens/sec bei Qwen3.6-35B-A3B (MoE, Q6_K, ~30GB). Auch die Varianz ist deutlich niedriger (±0,5 vs. ±1,8). Das Prompt-Processing mit 512 Tokens ist bei beiden etwa gleich schnell. Der Nutzer hat beide Backends in das gleiche llama.cpp-Binary integriert (-DGGML_HIP=ON -DGGML_VULKAN=ON) und vermutet, dass ROCm für bestimmte Operationen auf dieser GPU suboptimale Code-Pfade nutzt. Das Post regt zu weiteren Erfahrungsberichten von anderen Strix-Halo- oder RDNA-3.5-Nutzern an.

Was wir noch wissen

Hardware: AMD Radeon 8060S mit 64 GB unified VRAM, Arch Linux
Getestet mit llama.cpp (Commit 27aef3dd9), Qwen3.6-35B-A3B MoE (Q6_K, ~30GB)
Prompt Processing (512 Token): ROCm 841 vs. Vulkan 867 Tokens/sec (praktisch gleichauf)
ROCm 7.2.2 über pacman, Mesa RADV Vulkan-Treiber; beide Backends in einem Binary
Vulkan zeigt auch bessere Stabilität (Varianz ±0,5 statt ±1,8 bei Token Generation)

Quelle lesenreddit.com

llama-bench Token Generation (Qwen3.6-35B-A3B Q6_K) · Spitzenwert

42.3%

ROCm 7.2.2

Open Source Inferenz Infra Chips Silizium

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Vulkan-Backend schlägt ROCm auf AMD-Strix-Halo um 21% Prozent

ToolsQwen Llama

CompaniesAMD

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Hardware: AMD Radeon 8060S mit 64 GB unified VRAM, Arch Linux
Getestet mit llama.cpp (Commit 27aef3dd9), Qwen3.6-35B-A3B MoE (Q6_K, ~30GB)
Prompt Processing (512 Token): ROCm 841 vs. Vulkan 867 Tokens/sec (praktisch gleichauf)
ROCm 7.2.2 über pacman, Mesa RADV Vulkan-Treiber; beide Backends in einem Binary
Vulkan zeigt auch bessere Stabilität (Varianz ±0,5 statt ±1,8 bei Token Generation)

llama-bench Token Generation (Qwen3.6-35B-A3B Q6_K) · Spitzenwert

42.3%

ROCm 7.2.2

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Vulkan-Backend schlägt ROCm auf AMD-Strix-Halo um 21% Prozent

Frag die KI zum Artikel

Verwandte Beiträge

Vulkan-Backend schlägt ROCm auf AMD-Strix-Halo um 21% Prozent

Frag die KI zum Artikel

Verwandte Beiträge