Qwen3.6 35B auf RTX 3080 10GB: 26 t/s bei 32k Kontext
Warum es zählt
Zeigt, dass das 35B-MoE-Modell von Qwen auf Consumer-Hardware mit nur 10 GB VRAM nutzbar ist. KV-Cache-GPU-Offloading steigert tg auf 56 t/s, begrenzt den Kontext aber auf unter 8k – relevanter Trade-off für agentic Use-Cases mit langen Kontexten.
— Lumeric Redaktion
26 t/s
Token-Generierung bei 32k Kontext
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Qwen3.6 35B auf RTX 3080 10GB: 26 t/s bei 32k Kontext
Warum es zählt
Zeigt, dass das 35B-MoE-Modell von Qwen auf Consumer-Hardware mit nur 10 GB VRAM nutzbar ist. KV-Cache-GPU-Offloading steigert tg auf 56 t/s, begrenzt den Kontext aber auf unter 8k – relevanter Trade-off für agentic Use-Cases mit langen Kontexten.
— Lumeric Redaktion
26 t/s
Token-Generierung bei 32k Kontext
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.