Qwen3 35B-A3B-MTP läuft auf GTX 1060 6GB per LM Studio
Reddit-Nutzer /u/xxvegas demonstriert, dass das Qwen3-35B-A3B-MTP-Modell (unsloth GGUF UD Q4_K_XL) auf einer rund zehn Jahre alten Dell-T5810-Workstation mit Intel Xeon E5-2698v3 (16 Kerne, 32 Threads), 32 GB DDR3-RAM und einer GTX 1060 mit 6 GB VRAM läuft – unter Windows, via LM Studio. Möglich wird dies durch konsequentes CPU-Offloading: 41 MoE-Layer werden auf die CPU ausgelagert, während 41 Layer auf die GPU geladen werden. Der Kontext ist auf 131.072 Token eingestellt, KV-Cache wird mit Q4_0 quantisiert. Beim Prefill mit 16k Kontext erreicht das Setup 130–150 Token/s, beim Decoding mit 4k Kontext rund 16 Token/s – nach Einschätzung des Nutzers ausreichend für flüssige Chat-Nutzung. Die Konfiguration nutzt 8 Experten, MTP Max Draft 3 und einen CPU-Threadpool von 16. Das Beispiel verdeutlicht, wie weit MoE-Quantisierung und Hybrid-Offloading die Einstiegshürde für große Sprachmodelle senken.
- Modell: unsloth/Qwen3-35B-A3B-MTP-GGUF UD Q4_K_XL, ausgeführt in LM Studio unter Windows
- GPU: GTX 1060 6 GB (41 Layer GPU-Offload); CPU: Xeon E5-2698v3 mit 16 Threads
- 41 MoE-Layer auf CPU ausgelagert, 8 Experten aktiv, MTP Max Draft 3
- KV-Quantisierung Q4_0 für Key und Value; maximaler Kontext 131.072 Token
- Prefill (16k): 130–150 t/s; Decode (4k): ~16 t/s – laut Nutzer alltagstauglich
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Qwen3 35B-A3B-MTP läuft auf GTX 1060 6GB per LM Studio
Reddit-Nutzer /u/xxvegas demonstriert, dass das Qwen3-35B-A3B-MTP-Modell (unsloth GGUF UD Q4_K_XL) auf einer rund zehn Jahre alten Dell-T5810-Workstation mit Intel Xeon E5-2698v3 (16 Kerne, 32 Threads), 32 GB DDR3-RAM und einer GTX 1060 mit 6 GB VRAM läuft – unter Windows, via LM Studio. Möglich wird dies durch konsequentes CPU-Offloading: 41 MoE-Layer werden auf die CPU ausgelagert, während 41 Layer auf die GPU geladen werden. Der Kontext ist auf 131.072 Token eingestellt, KV-Cache wird mit Q4_0 quantisiert. Beim Prefill mit 16k Kontext erreicht das Setup 130–150 Token/s, beim Decoding mit 4k Kontext rund 16 Token/s – nach Einschätzung des Nutzers ausreichend für flüssige Chat-Nutzung. Die Konfiguration nutzt 8 Experten, MTP Max Draft 3 und einen CPU-Threadpool von 16. Das Beispiel verdeutlicht, wie weit MoE-Quantisierung und Hybrid-Offloading die Einstiegshürde für große Sprachmodelle senken.
- Modell: unsloth/Qwen3-35B-A3B-MTP-GGUF UD Q4_K_XL, ausgeführt in LM Studio unter Windows
- GPU: GTX 1060 6 GB (41 Layer GPU-Offload); CPU: Xeon E5-2698v3 mit 16 Threads
- 41 MoE-Layer auf CPU ausgelagert, 8 Experten aktiv, MTP Max Draft 3
- KV-Quantisierung Q4_0 für Key und Value; maximaler Kontext 131.072 Token
- Prefill (16k): 130–150 t/s; Decode (4k): ~16 t/s – laut Nutzer alltagstauglich
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.