Qwen3-35B-MoE lokal: Speedup durch --n-cpu-moe-Tuning in llama.cpp
Der Reddit-Nutzer MackTuesday betreibt das MoE-Modell Qwen3.6-35B-A3B (quantisiert als Q4_K_XL GGUF) auf einem System mit 12 GB VRAM und 32 GB RAM über die TurboQuant-Variante von llama.cpp. Durch Anheben des Parameters --n-cpu-moe von 8 auf 30 stieg die Inferenzrate von 17 auf 34 tok/s – eine Verdoppelung, die der Nutzer selbst nicht erwartet hatte. Weiteres Erhöhen auf 41 brachte keine Änderung, während ein späterer Test mit dem Wert 256 die Geschwindigkeit nochmals leicht steigerte, ohne den VRAM-Verbrauch zu verändern. Der Effekt erklärt sich wahrscheinlich dadurch, dass bei MoE-Architekturen nicht alle Experten gleichzeitig aktiv sind; das Auslagern inaktiver Experten auf die CPU entlastet den VRAM-Bus und ermöglicht der GPU effizienteres Arbeiten. Das verwendete Setup nutzt außerdem Flash Attention (-fa on), TurboQuant-Cache-Typen (turbo4/turbo3), einen Kontext von 262.144 Tokens sowie --no-mmap. Die Diskussion illustriert, wie wenig intuitiv MoE-spezifische Inferenzparameter für Endnutzer sind und dass Community-Experimente hier wichtige Erkenntnisse liefern.
- Modell: Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf, ausgeführt via TurboQuant-Variante von llama.cpp
- Hardware: 12 GB VRAM + 32 GB RAM; alle Layer per -ngl 999 auf GPU geladen
- Speedup von 17 → 34 tok/s allein durch Änderung von --n-cpu-moe 8 auf 30
- Kontextfenster auf 262.144 Tokens gesetzt; Cache-Typen turbo4 (K) und turbo3 (V)
- Weitere Erhöhung auf 256 steigerte Geschwindigkeit erneut leicht ohne VRAM-Mehrverbrauch
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Qwen3-35B-MoE lokal: Speedup durch --n-cpu-moe-Tuning in llama.cpp
Der Reddit-Nutzer MackTuesday betreibt das MoE-Modell Qwen3.6-35B-A3B (quantisiert als Q4_K_XL GGUF) auf einem System mit 12 GB VRAM und 32 GB RAM über die TurboQuant-Variante von llama.cpp. Durch Anheben des Parameters --n-cpu-moe von 8 auf 30 stieg die Inferenzrate von 17 auf 34 tok/s – eine Verdoppelung, die der Nutzer selbst nicht erwartet hatte. Weiteres Erhöhen auf 41 brachte keine Änderung, während ein späterer Test mit dem Wert 256 die Geschwindigkeit nochmals leicht steigerte, ohne den VRAM-Verbrauch zu verändern. Der Effekt erklärt sich wahrscheinlich dadurch, dass bei MoE-Architekturen nicht alle Experten gleichzeitig aktiv sind; das Auslagern inaktiver Experten auf die CPU entlastet den VRAM-Bus und ermöglicht der GPU effizienteres Arbeiten. Das verwendete Setup nutzt außerdem Flash Attention (-fa on), TurboQuant-Cache-Typen (turbo4/turbo3), einen Kontext von 262.144 Tokens sowie --no-mmap. Die Diskussion illustriert, wie wenig intuitiv MoE-spezifische Inferenzparameter für Endnutzer sind und dass Community-Experimente hier wichtige Erkenntnisse liefern.
- Modell: Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf, ausgeführt via TurboQuant-Variante von llama.cpp
- Hardware: 12 GB VRAM + 32 GB RAM; alle Layer per -ngl 999 auf GPU geladen
- Speedup von 17 → 34 tok/s allein durch Änderung von --n-cpu-moe 8 auf 30
- Kontextfenster auf 262.144 Tokens gesetzt; Cache-Typen turbo4 (K) und turbo3 (V)
- Weitere Erhöhung auf 256 steigerte Geschwindigkeit erneut leicht ohne VRAM-Mehrverbrauch
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.