
AI-Roundup: vLLM 0.20, Poolside Laguna, NVIDIA Nemotron Omni und Agenten-Tooling
Warum es zählt
vLLM 0.20 mit 4× KV-Kapazität und DeepSeek-V4-MegaMoE-Support ist direkt produktionsrelevant. Poolside Laguna XS.2 läuft auf einer GPU und ist Apache-2.0-lizenziert – sofort einsetzbar für Coding-Workflows. NVIDIA Nemotron Omni deckt Text, Bild, Video und Audio in einem Modell ab und ist über alle gängigen Inference-Anbieter verfügbar.
— Lumeric Redaktion
Ruhiger Nachrichtentag mit mehreren Open-Weight-Releases: vLLM 0.20 bringt TurboQuant 2-bit KV-Cache und 2,1 % Latenzverbesserung; Poolside veröffentlicht Laguna XS.2 (33B/3B MoE, Apache 2.0); NVIDIA launcht Nemotron 3 Nano Omni mit 256K Kontext und ~9× Durchsatz.
4×
KV-Cache-Kapazität mit TurboQuant 2-bit (vLLM 0.20)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge

AI-Roundup: vLLM 0.20, Poolside Laguna, NVIDIA Nemotron Omni und Agenten-Tooling
Warum es zählt
vLLM 0.20 mit 4× KV-Kapazität und DeepSeek-V4-MegaMoE-Support ist direkt produktionsrelevant. Poolside Laguna XS.2 läuft auf einer GPU und ist Apache-2.0-lizenziert – sofort einsetzbar für Coding-Workflows. NVIDIA Nemotron Omni deckt Text, Bild, Video und Audio in einem Modell ab und ist über alle gängigen Inference-Anbieter verfügbar.
— Lumeric Redaktion
Ruhiger Nachrichtentag mit mehreren Open-Weight-Releases: vLLM 0.20 bringt TurboQuant 2-bit KV-Cache und 2,1 % Latenzverbesserung; Poolside veröffentlicht Laguna XS.2 (33B/3B MoE, Apache 2.0); NVIDIA launcht Nemotron 3 Nano Omni mit 256K Kontext und ~9× Durchsatz.
4×
KV-Cache-Kapazität mit TurboQuant 2-bit (vLLM 0.20)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.