Qwen — April 2026

7 Beiträge im April 2026.

FORSCHUNG30. Apr.
Qwen3.6-27B auf RTX 3090: 218K Context und 50–66 TPS mit stabilen Tool-Aufrufen
Zeigt praktische Grenzen und Optimierungspotenzial beim Deployment großer Open-Source-Modelle auf Consumer-GPUs; der vLLM-Patch-Fix hilft Tool-Agent-Workloads auf einzelnen 3090ern ohne OOM-Crashes.
LAUNCH30. Apr.
Shepherd Model Gateway: CPU-Workloads per Rust vom GPU-Pfad entkoppeln
Wer SGLang oder vLLM unter hoher Last betreibt, kann durch GIL-bedingte CPU-Bottlenecks GPU-Kapazität verschwenden. SMG entkoppelt alle CPU-Aufgaben in einen eigenständigen Rust-Dienst, der unabhängig skaliert und ohne Python-Overhead auskommt — relevant vor allem bei Prefill-Decode-Disaggregation und großem Expert-Parallelismus.
MEINUNG30. Apr.
Qwen 3.6 27B/35B verdrängen ältere 30B-Modelle bei lokalen Setups
Zeigt konkrete Marktverschiebung bei Open-Source-Modellen im 30B-Segment: Qwen 3.6 setzt neue Performance-Standards für lokale Deployments und macht Modellwahl für Entwickler einfacher, indem Backups älterer Modelle überflüssig werden.
MEINUNG30. Apr.
LWiAI Podcast #242: ChatGPT Images 2.0, Qwen 3.6 Max und Kimi-K2.6 im Fokus
Der Podcast bündelt wöchentlich die wichtigsten KI-Entwicklungen in ~90 Minuten: Diesmal liefern Kimi-K2.6 (1T MoE), Amazons $5-Mrd.-Runde für Anthropic und ein potenzieller $60-Mrd.-SpaceX-Cursor-Deal konkrete Hinweise auf Investitions- und Architekturtrends für Builder.
LAUNCH29. Apr.
Qwen Team veröffentlicht FlashQLA: Bis zu 3× Speedup für Linear Attention auf NVIDIA Hopper GPUs
FlashQLA optimiert Forward- und Backward-Passes für lineare Attention-Architekturen und adressiert damit sowohl Large-Scale-Pretraining als auch Edge-Inference – relevant für alle, die auf GDN-basierte Modelle oder effiziente Inferenz-Pipelines setzen.
LAUNCH25. Apr.
kvcached: Elastische KV-Cache-Verwaltung für LLM-Serving auf vLLM
kvcached erlaubt dynamische KV-Cache-Zuweisung statt statischer Vorab-Reservierung, was GPU-Speicherauslastung bei schwankenden Lasten und mehreren Modellen gleichzeitig deutlich verbessert – relevant für produktives LLM-Serving mit vLLM.
LAUNCH22. Apr.
Qwen3.6-27B: Flagship-Coding-Leistung in 27B Dense Model
Ein 27B-Dense-Modell mit Flagship-Coding-Qualität ist lokal deploybar und senkt die Einstiegshürde für leistungsstarke Code-Assistenten erheblich – relevant für alle, die Inferenz-Kosten optimieren wollen.