Vulkan-Backend schlägt ROCm auf AMD-Strix-Halo um 21% Prozent
Ein Nutzer mit AMD Radeon 8060S (Strix Halo / gfx1151) vergleicht ROCm- und Vulkan-Backends in llama.cpp beim Inferenz großer Modelle. Auf der Hardware mit 64 GB unified VRAM und Arch Linux zeigt sich Vulkan (Mesa RADV) beim Token-Generieren 21% schneller als ROCm 7.2.2: 51,2 gegenüber 42,3 Tokens/sec bei Qwen3.6-35B-A3B (MoE, Q6_K, ~30GB). Auch die Varianz ist deutlich niedriger (±0,5 vs. ±1,8). Das Prompt-Processing mit 512 Tokens ist bei beiden etwa gleich schnell. Der Nutzer hat beide Backends in das gleiche llama.cpp-Binary integriert (-DGGML_HIP=ON -DGGML_VULKAN=ON) und vermutet, dass ROCm für bestimmte Operationen auf dieser GPU suboptimale Code-Pfade nutzt. Das Post regt zu weiteren Erfahrungsberichten von anderen Strix-Halo- oder RDNA-3.5-Nutzern an.
- Hardware: AMD Radeon 8060S mit 64 GB unified VRAM, Arch Linux
- Getestet mit llama.cpp (Commit 27aef3dd9), Qwen3.6-35B-A3B MoE (Q6_K, ~30GB)
- Prompt Processing (512 Token): ROCm 841 vs. Vulkan 867 Tokens/sec (praktisch gleichauf)
- ROCm 7.2.2 über pacman, Mesa RADV Vulkan-Treiber; beide Backends in einem Binary
- Vulkan zeigt auch bessere Stabilität (Varianz ±0,5 statt ±1,8 bei Token Generation)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Vulkan-Backend schlägt ROCm auf AMD-Strix-Halo um 21% Prozent
Ein Nutzer mit AMD Radeon 8060S (Strix Halo / gfx1151) vergleicht ROCm- und Vulkan-Backends in llama.cpp beim Inferenz großer Modelle. Auf der Hardware mit 64 GB unified VRAM und Arch Linux zeigt sich Vulkan (Mesa RADV) beim Token-Generieren 21% schneller als ROCm 7.2.2: 51,2 gegenüber 42,3 Tokens/sec bei Qwen3.6-35B-A3B (MoE, Q6_K, ~30GB). Auch die Varianz ist deutlich niedriger (±0,5 vs. ±1,8). Das Prompt-Processing mit 512 Tokens ist bei beiden etwa gleich schnell. Der Nutzer hat beide Backends in das gleiche llama.cpp-Binary integriert (-DGGML_HIP=ON -DGGML_VULKAN=ON) und vermutet, dass ROCm für bestimmte Operationen auf dieser GPU suboptimale Code-Pfade nutzt. Das Post regt zu weiteren Erfahrungsberichten von anderen Strix-Halo- oder RDNA-3.5-Nutzern an.
- Hardware: AMD Radeon 8060S mit 64 GB unified VRAM, Arch Linux
- Getestet mit llama.cpp (Commit 27aef3dd9), Qwen3.6-35B-A3B MoE (Q6_K, ~30GB)
- Prompt Processing (512 Token): ROCm 841 vs. Vulkan 867 Tokens/sec (praktisch gleichauf)
- ROCm 7.2.2 über pacman, Mesa RADV Vulkan-Treiber; beide Backends in einem Binary
- Vulkan zeigt auch bessere Stabilität (Varianz ±0,5 statt ±1,8 bei Token Generation)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.