llama.cpp-Fork: Experten-First-Ansatz steigert MoE-Inferenz auf 12-GB-GPUs

CompaniesNVIDIA

Warum es zählt

Wer MoE-Modelle wie Qwen3-35B-A3B auf Consumer-GPUs mit 12 GB VRAM betreibt, kann durch selektives Expert-Caching (ab 42 % Hit-Rate) spürbar mehr Tokens pro Sekunde herausholen – ohne teurere Hardware.

— Lumeric Redaktion

Reddit-Nutzer comanderxv hat einen experimentellen Fork von llama.cpp veröffentlicht, der die Inferenz von Mixture-of-Experts-Modellen auf VRAM-knappen Systemen optimiert. Statt vollständige Layer in den VRAM zu laden, werden nur die tatsächlich häufig aktivierten Experten gecacht. Hintergrund ist, dass Modelle wie Qwen3-35B-A3B pro Token nur 8 von insgesamt deutlich mehr Experten nutzen – der Rest belegt unnötig VRAM oder muss über langsame CPU-Pfade abgearbeitet werden. Mit einem eigens entwickelten Monitoring-UI stellte der Autor fest, dass frühe Layer ihre Experten häufiger wechseln als späte und daher Priorität im VRAM erhalten sollten. Das Standard-Flag --n-cpu-moe in llama.cpp legt jedoch gerade die ersten Layer auf die CPU. Der Fork führt zwei neue Flags ein: --moe-layer-perf-out zur Profilerstellung und --moe-hot-cache zum Laden des optimierten Expert-Profils. Auf einer RTX 2060 (12 GB VRAM) steigt der Durchsatz von 19 tk/s (Standard) auf 26 tk/s bei einer Expert-Hit-Rate von 62 %; der Break-Even liegt bei 42 %. Der Entwickler sucht Tester mit RTX 3060 oder 4060 unter Linux; CUDA ist Pflicht.

Was wir noch wissen

Fork-Repository: github.com/adrianhoehne/llama.cpp, aktuell nur Linux/CUDA
Getestete Modelle: Qwen3-35B-A3B und Gemma-26B-A4B (MoE-Architektur)
Break-Even-Hit-Rate für Geschwindigkeitsvorteil liegt bei 42 % Expert-Cache-Treffer
Autor nutzt ausschließlich Q6-Quantisierung und unkomprimierten 100k-Kontext für Java-Entwicklung
Integriertes UI-Monitoring zeigt live, welche Experten aktiv sind – als Button in der Llama-UI

Quelle lesenreddit.com

26 tk/s

Durchsatz mit Expert-Cache (RTX 2060)

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

LAUNCH

reddit.com· r/LocalLLaMA6d