Qwen3 35B-A3B-MTP läuft auf GTX 1060 6GB per LM Studio

Warum es zählt

Dank MoE-Architektur und aggressivem CPU-Offloading lassen sich große Modelle auch auf Consumer-Hardware aus dem Jahr 2016 noch sinnvoll einsetzen – relevant für alle, die kein Budget für moderne GPUs haben.

— Lumeric Redaktion

Reddit-Nutzer /u/xxvegas demonstriert, dass das Qwen3-35B-A3B-MTP-Modell (unsloth GGUF UD Q4_K_XL) auf einer rund zehn Jahre alten Dell-T5810-Workstation mit Intel Xeon E5-2698v3 (16 Kerne, 32 Threads), 32 GB DDR3-RAM und einer GTX 1060 mit 6 GB VRAM läuft – unter Windows, via LM Studio. Möglich wird dies durch konsequentes CPU-Offloading: 41 MoE-Layer werden auf die CPU ausgelagert, während 41 Layer auf die GPU geladen werden. Der Kontext ist auf 131.072 Token eingestellt, KV-Cache wird mit Q4_0 quantisiert. Beim Prefill mit 16k Kontext erreicht das Setup 130–150 Token/s, beim Decoding mit 4k Kontext rund 16 Token/s – nach Einschätzung des Nutzers ausreichend für flüssige Chat-Nutzung. Die Konfiguration nutzt 8 Experten, MTP Max Draft 3 und einen CPU-Threadpool von 16. Das Beispiel verdeutlicht, wie weit MoE-Quantisierung und Hybrid-Offloading die Einstiegshürde für große Sprachmodelle senken.

Was wir noch wissen

Modell: unsloth/Qwen3-35B-A3B-MTP-GGUF UD Q4_K_XL, ausgeführt in LM Studio unter Windows
GPU: GTX 1060 6 GB (41 Layer GPU-Offload); CPU: Xeon E5-2698v3 mit 16 Threads
41 MoE-Layer auf CPU ausgelagert, 8 Experten aktiv, MTP Max Draft 3
KV-Quantisierung Q4_0 für Key und Value; maximaler Kontext 131.072 Token
Prefill (16k): 130–150 t/s; Decode (4k): ~16 t/s – laut Nutzer alltagstauglich

Quelle lesenreddit.com

~16 t/s

Decode-Geschwindigkeit bei 4k Kontext

Foundation Modelle Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3 35B-A3B-MTP läuft auf GTX 1060 6GB per LM Studio

ToolsLM Studio Qwen

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Modell: unsloth/Qwen3-35B-A3B-MTP-GGUF UD Q4_K_XL, ausgeführt in LM Studio unter Windows
GPU: GTX 1060 6 GB (41 Layer GPU-Offload); CPU: Xeon E5-2698v3 mit 16 Threads
41 MoE-Layer auf CPU ausgelagert, 8 Experten aktiv, MTP Max Draft 3
KV-Quantisierung Q4_0 für Key und Value; maximaler Kontext 131.072 Token
Prefill (16k): 130–150 t/s; Decode (4k): ~16 t/s – laut Nutzer alltagstauglich

~16 t/s

Decode-Geschwindigkeit bei 4k Kontext

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3 35B-A3B-MTP läuft auf GTX 1060 6GB per LM Studio

Frag die KI zum Artikel

Verwandte Beiträge

Qwen3 35B-A3B-MTP läuft auf GTX 1060 6GB per LM Studio

Frag die KI zum Artikel

Verwandte Beiträge