Dual-GPU-Setup mit 48 GB VRAM: llama.cpp-Server via Vulkan auf AMD R9700 AI PRO + 7800XT
Der Reddit-Nutzer /u/Jorlen berichtet, wie er unter Kubuntu 24.04 einen llama.cpp-Inferenzserver mit zwei AMD-GPUs – einer R9700 AI PRO (32 GB VRAM, RDNA4) und einer RX 7800XT (16 GB VRAM, RDNA3) – zum Laufen gebracht hat. Zusammen stehen ihm damit 48 GB VRAM für lokale Modelle zur Verfügung. Der ursprüngliche Versuch mit ROCm scheiterte, da das AMD-Backend die Kombination aus RDNA4- und RDNA3-Architektur nicht unterstützte. Als Lösung kam das Vulkan-Backend von llama.cpp zum Einsatz, das über ein Docker-Image eingerichtet wurde. Das Setup läuft stabil genug für erste Prompts. Die Gesamtinvestition umfasste ein neues Netzteil für rund 300 USD, um die zweite GPU sicher betreiben zu können. Der Beitrag zeigt praxisnah, dass Vulkan eine realistische Alternative zu ROCm sein kann, wenn heterogene AMD-GPU-Kombinationen oder fehlende ROCm-Unterstützung ein Problem darstellen.
- Setup: Kubuntu 24.04, Docker, Vulkan-Image für llama.cpp-Server
- GPUs: AMD R9700 AI PRO (32 GB, RDNA4) + RX 7800XT (16 GB, RDNA3) = 48 GB VRAM gesamt
- ROCm funktionierte nicht mit der RDNA4+RDNA3-Mischkonfiguration
- Zusatzkosten: neues Netzteil für ca. 300 USD nötig
- Erster Quick-Prompt-Test erfolgreich; Langzeitstabilität noch unbewiesen
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com1w
llama.cpp ROCm vs. Vulkan: 3,8 GB mehr VRAM-Verbrauch für KV-Cache auf Linux
- BENCHMARKreddit.com3w
Vulkan-Backend schlägt ROCm auf AMD-Strix-Halo um 21% Prozent
- MEINUNGreddit.com1w
Qwen3.6 27B auf RX 7800 XT: Community sucht optimale llama.cpp-Konfiguration
- MEINUNGreddit.com1w
Community-Frage: Intel Arc Pro B70/B65 mit 32 GB für lokale LLM-Inferenz
Dual-GPU-Setup mit 48 GB VRAM: llama.cpp-Server via Vulkan auf AMD R9700 AI PRO + 7800XT
Der Reddit-Nutzer /u/Jorlen berichtet, wie er unter Kubuntu 24.04 einen llama.cpp-Inferenzserver mit zwei AMD-GPUs – einer R9700 AI PRO (32 GB VRAM, RDNA4) und einer RX 7800XT (16 GB VRAM, RDNA3) – zum Laufen gebracht hat. Zusammen stehen ihm damit 48 GB VRAM für lokale Modelle zur Verfügung. Der ursprüngliche Versuch mit ROCm scheiterte, da das AMD-Backend die Kombination aus RDNA4- und RDNA3-Architektur nicht unterstützte. Als Lösung kam das Vulkan-Backend von llama.cpp zum Einsatz, das über ein Docker-Image eingerichtet wurde. Das Setup läuft stabil genug für erste Prompts. Die Gesamtinvestition umfasste ein neues Netzteil für rund 300 USD, um die zweite GPU sicher betreiben zu können. Der Beitrag zeigt praxisnah, dass Vulkan eine realistische Alternative zu ROCm sein kann, wenn heterogene AMD-GPU-Kombinationen oder fehlende ROCm-Unterstützung ein Problem darstellen.
- Setup: Kubuntu 24.04, Docker, Vulkan-Image für llama.cpp-Server
- GPUs: AMD R9700 AI PRO (32 GB, RDNA4) + RX 7800XT (16 GB, RDNA3) = 48 GB VRAM gesamt
- ROCm funktionierte nicht mit der RDNA4+RDNA3-Mischkonfiguration
- Zusatzkosten: neues Netzteil für ca. 300 USD nötig
- Erster Quick-Prompt-Test erfolgreich; Langzeitstabilität noch unbewiesen
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com1w
llama.cpp ROCm vs. Vulkan: 3,8 GB mehr VRAM-Verbrauch für KV-Cache auf Linux
- BENCHMARKreddit.com3w
Vulkan-Backend schlägt ROCm auf AMD-Strix-Halo um 21% Prozent
- MEINUNGreddit.com1w
Qwen3.6 27B auf RX 7800 XT: Community sucht optimale llama.cpp-Konfiguration
- MEINUNGreddit.com1w
Community-Frage: Intel Arc Pro B70/B65 mit 32 GB für lokale LLM-Inferenz