AMD — April 2026
2 Beiträge im April 2026.
- FORSCHUNG30. Apr.Gleichzeitiger CUDA+ROCm-Betrieb in llama.cpp mit neuem GGML-BackendLokale LLM-Betreiber können damit heterogene GPU-Setups (NVIDIA + AMD) optimal auslasten und profitieren von besseren Prefill-Latenzen – besonders relevant für produktive Inference mit großem Kontext.
- FORSCHUNG30. Apr.32× AMD MI50: 9,7 tok/s Durchsatz mit Kimi K2.6 auf custom vLLMZeigt praktische Machbarkeit von Multi-GPU-Inferenz auf Budget-Hardware, offenbart aber auch Grenzen: trotz großer Parallelität rechtfertigt sich das Setup nur mit kostenloser Energie. Relevante technische Details (PCIe-Bottlenecks, Optimierungspotenziale) für DIY-Inferenz-Cluster-Builder.