Llama — April 2026
3 Beiträge im April 2026.
- FORSCHUNG30. Apr.Gleichzeitiger CUDA+ROCm-Betrieb in llama.cpp mit neuem GGML-BackendLokale LLM-Betreiber können damit heterogene GPU-Setups (NVIDIA + AMD) optimal auslasten und profitieren von besseren Prefill-Latenzen – besonders relevant für produktive Inference mit großem Kontext.
- LAUNCH30. Apr.Shepherd Model Gateway: CPU-Workloads per Rust vom GPU-Pfad entkoppelnWer SGLang oder vLLM unter hoher Last betreibt, kann durch GIL-bedingte CPU-Bottlenecks GPU-Kapazität verschwenden. SMG entkoppelt alle CPU-Aufgaben in einen eigenständigen Rust-Dienst, der unabhängig skaliert und ohne Python-Overhead auskommt — relevant vor allem bei Prefill-Decode-Disaggregation und großem Expert-Parallelismus.
- LAUNCH27. Apr.Tutorial: Durchsuchbare AI-Wissensdatenbank mit OpenKB, OpenRouter und LlamaEntwickler erhalten ein konkretes Setup für eine lokal betriebene, wiki-ähnliche Wissensdatenbank mit Open-Source-Komponenten und kostenlosem LLM-Zugang über OpenRouter – ohne API-Key-Hardcoding.