wird geladen

AMD — April 2026 · Lumeric

Feed
Digest
Lounge
Stash
Profil

AMD · April 2026

← AMD · Live

AMD — April 2026

2 Beiträge im April 2026.

FORSCHUNG30. Apr.
Gleichzeitiger CUDA+ROCm-Betrieb in llama.cpp mit neuem GGML-Backend
Lokale LLM-Betreiber können damit heterogene GPU-Setups (NVIDIA + AMD) optimal auslasten und profitieren von besseren Prefill-Latenzen – besonders relevant für produktive Inference mit großem Kontext.
FORSCHUNG30. Apr.
32× AMD MI50: 9,7 tok/s Durchsatz mit Kimi K2.6 auf custom vLLM
Zeigt praktische Machbarkeit von Multi-GPU-Inferenz auf Budget-Hardware, offenbart aber auch Grenzen: trotz großer Parallelität rechtfertigt sich das Setup nur mit kostenloser Energie. Relevante technische Details (PCIe-Bottlenecks, Optimierungspotenziale) für DIY-Inferenz-Cluster-Builder.

Feed Digest Lounge Stash Profil