Qwen — April 2026
7 Beiträge im April 2026.
- FORSCHUNG30. Apr.Qwen3.6-27B auf RTX 3090: 218K Context und 50–66 TPS mit stabilen Tool-AufrufenZeigt praktische Grenzen und Optimierungspotenzial beim Deployment großer Open-Source-Modelle auf Consumer-GPUs; der vLLM-Patch-Fix hilft Tool-Agent-Workloads auf einzelnen 3090ern ohne OOM-Crashes.
- LAUNCH30. Apr.Shepherd Model Gateway: CPU-Workloads per Rust vom GPU-Pfad entkoppelnWer SGLang oder vLLM unter hoher Last betreibt, kann durch GIL-bedingte CPU-Bottlenecks GPU-Kapazität verschwenden. SMG entkoppelt alle CPU-Aufgaben in einen eigenständigen Rust-Dienst, der unabhängig skaliert und ohne Python-Overhead auskommt — relevant vor allem bei Prefill-Decode-Disaggregation und großem Expert-Parallelismus.
- MEINUNG30. Apr.Qwen 3.6 27B/35B verdrängen ältere 30B-Modelle bei lokalen SetupsZeigt konkrete Marktverschiebung bei Open-Source-Modellen im 30B-Segment: Qwen 3.6 setzt neue Performance-Standards für lokale Deployments und macht Modellwahl für Entwickler einfacher, indem Backups älterer Modelle überflüssig werden.
- MEINUNG30. Apr.LWiAI Podcast #242: ChatGPT Images 2.0, Qwen 3.6 Max und Kimi-K2.6 im FokusDer Podcast bündelt wöchentlich die wichtigsten KI-Entwicklungen in ~90 Minuten: Diesmal liefern Kimi-K2.6 (1T MoE), Amazons $5-Mrd.-Runde für Anthropic und ein potenzieller $60-Mrd.-SpaceX-Cursor-Deal konkrete Hinweise auf Investitions- und Architekturtrends für Builder.
- LAUNCH29. Apr.Qwen Team veröffentlicht FlashQLA: Bis zu 3× Speedup für Linear Attention auf NVIDIA Hopper GPUsFlashQLA optimiert Forward- und Backward-Passes für lineare Attention-Architekturen und adressiert damit sowohl Large-Scale-Pretraining als auch Edge-Inference – relevant für alle, die auf GDN-basierte Modelle oder effiziente Inferenz-Pipelines setzen.
- LAUNCH25. Apr.kvcached: Elastische KV-Cache-Verwaltung für LLM-Serving auf vLLMkvcached erlaubt dynamische KV-Cache-Zuweisung statt statischer Vorab-Reservierung, was GPU-Speicherauslastung bei schwankenden Lasten und mehreren Modellen gleichzeitig deutlich verbessert – relevant für produktives LLM-Serving mit vLLM.
- LAUNCH22. Apr.Qwen3.6-27B: Flagship-Coding-Leistung in 27B Dense ModelEin 27B-Dense-Modell mit Flagship-Coding-Qualität ist lokal deploybar und senkt die Einstiegshürde für leistungsstarke Code-Assistenten erheblich – relevant für alle, die Inferenz-Kosten optimieren wollen.