Qwen3-35B-MoE lokal: Speedup durch --n-cpu-moe-Tuning in llama.cpp

Warum es zählt

Bei MoE-Modellen wie Qwen3 kann das gezielte Auslagern von Experten-Layern auf die CPU via --n-cpu-moe VRAM-Engpässe entschärfen und die GPU-Auslastung verbessern – ein relevanter Tuning-Hebel für Consumer-Hardware mit 12 GB VRAM.

— Lumeric Redaktion

Der Reddit-Nutzer MackTuesday betreibt das MoE-Modell Qwen3.6-35B-A3B (quantisiert als Q4_K_XL GGUF) auf einem System mit 12 GB VRAM und 32 GB RAM über die TurboQuant-Variante von llama.cpp. Durch Anheben des Parameters --n-cpu-moe von 8 auf 30 stieg die Inferenzrate von 17 auf 34 tok/s – eine Verdoppelung, die der Nutzer selbst nicht erwartet hatte. Weiteres Erhöhen auf 41 brachte keine Änderung, während ein späterer Test mit dem Wert 256 die Geschwindigkeit nochmals leicht steigerte, ohne den VRAM-Verbrauch zu verändern. Der Effekt erklärt sich wahrscheinlich dadurch, dass bei MoE-Architekturen nicht alle Experten gleichzeitig aktiv sind; das Auslagern inaktiver Experten auf die CPU entlastet den VRAM-Bus und ermöglicht der GPU effizienteres Arbeiten. Das verwendete Setup nutzt außerdem Flash Attention (-fa on), TurboQuant-Cache-Typen (turbo4/turbo3), einen Kontext von 262.144 Tokens sowie --no-mmap. Die Diskussion illustriert, wie wenig intuitiv MoE-spezifische Inferenzparameter für Endnutzer sind und dass Community-Experimente hier wichtige Erkenntnisse liefern.

Was wir noch wissen

Modell: Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf, ausgeführt via TurboQuant-Variante von llama.cpp
Hardware: 12 GB VRAM + 32 GB RAM; alle Layer per -ngl 999 auf GPU geladen
Speedup von 17 → 34 tok/s allein durch Änderung von --n-cpu-moe 8 auf 30
Kontextfenster auf 262.144 Tokens gesetzt; Cache-Typen turbo4 (K) und turbo3 (V)
Weitere Erhöhung auf 256 steigerte Geschwindigkeit erneut leicht ohne VRAM-Mehrverbrauch

Quelle lesenreddit.com

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3-35B-MoE lokal: Speedup durch --n-cpu-moe-Tuning in llama.cpp

ToolsQwen Llama

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Modell: Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf, ausgeführt via TurboQuant-Variante von llama.cpp
Hardware: 12 GB VRAM + 32 GB RAM; alle Layer per -ngl 999 auf GPU geladen
Speedup von 17 → 34 tok/s allein durch Änderung von --n-cpu-moe 8 auf 30
Kontextfenster auf 262.144 Tokens gesetzt; Cache-Typen turbo4 (K) und turbo3 (V)
Weitere Erhöhung auf 256 steigerte Geschwindigkeit erneut leicht ohne VRAM-Mehrverbrauch

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3-35B-MoE lokal: Speedup durch --n-cpu-moe-Tuning in llama.cpp

Frag die KI zum Artikel

Verwandte Beiträge

Qwen3-35B-MoE lokal: Speedup durch --n-cpu-moe-Tuning in llama.cpp

Frag die KI zum Artikel

Verwandte Beiträge