wird geladen

Llama — April 2026 · Lumeric

Feed
Digest
Lounge
Stash
Profil

Llama · April 2026

← Llama · Live

Llama — April 2026

3 Beiträge im April 2026.

FORSCHUNG30. Apr.
Gleichzeitiger CUDA+ROCm-Betrieb in llama.cpp mit neuem GGML-Backend
Lokale LLM-Betreiber können damit heterogene GPU-Setups (NVIDIA + AMD) optimal auslasten und profitieren von besseren Prefill-Latenzen – besonders relevant für produktive Inference mit großem Kontext.
LAUNCH30. Apr.
Shepherd Model Gateway: CPU-Workloads per Rust vom GPU-Pfad entkoppeln
Wer SGLang oder vLLM unter hoher Last betreibt, kann durch GIL-bedingte CPU-Bottlenecks GPU-Kapazität verschwenden. SMG entkoppelt alle CPU-Aufgaben in einen eigenständigen Rust-Dienst, der unabhängig skaliert und ohne Python-Overhead auskommt — relevant vor allem bei Prefill-Decode-Disaggregation und großem Expert-Parallelismus.
LAUNCH27. Apr.
Tutorial: Durchsuchbare AI-Wissensdatenbank mit OpenKB, OpenRouter und Llama
Entwickler erhalten ein konkretes Setup für eine lokal betriebene, wiki-ähnliche Wissensdatenbank mit Open-Source-Komponenten und kostenlosem LLM-Zugang über OpenRouter – ohne API-Key-Hardcoding.

Feed Digest Lounge Stash Profil