Qwen3.6 35B auf RTX 3080 10GB: 26 t/s bei 32k Kontext

Warum es zählt

Zeigt, dass das 35B-MoE-Modell von Qwen auf Consumer-Hardware mit nur 10 GB VRAM nutzbar ist. KV-Cache-GPU-Offloading steigert tg auf 56 t/s, begrenzt den Kontext aber auf unter 8k – relevanter Trade-off für agentic Use-Cases mit langen Kontexten.

— Lumeric Redaktion

Quelle lesenreddit.com

26 t/s

Token-Generierung bei 32k Kontext

Inferenz Infra Open Source Agents