llama.cpp-Fork: Experten-First-Ansatz steigert MoE-Inferenz auf 12-GB-GPUs
Reddit-Nutzer comanderxv hat einen experimentellen Fork von llama.cpp veröffentlicht, der die Inferenz von Mixture-of-Experts-Modellen auf VRAM-knappen Systemen optimiert. Statt vollständige Layer in den VRAM zu laden, werden nur die tatsächlich häufig aktivierten Experten gecacht. Hintergrund ist, dass Modelle wie Qwen3-35B-A3B pro Token nur 8 von insgesamt deutlich mehr Experten nutzen – der Rest belegt unnötig VRAM oder muss über langsame CPU-Pfade abgearbeitet werden. Mit einem eigens entwickelten Monitoring-UI stellte der Autor fest, dass frühe Layer ihre Experten häufiger wechseln als späte und daher Priorität im VRAM erhalten sollten. Das Standard-Flag --n-cpu-moe in llama.cpp legt jedoch gerade die ersten Layer auf die CPU. Der Fork führt zwei neue Flags ein: --moe-layer-perf-out zur Profilerstellung und --moe-hot-cache zum Laden des optimierten Expert-Profils. Auf einer RTX 2060 (12 GB VRAM) steigt der Durchsatz von 19 tk/s (Standard) auf 26 tk/s bei einer Expert-Hit-Rate von 62 %; der Break-Even liegt bei 42 %. Der Entwickler sucht Tester mit RTX 3060 oder 4060 unter Linux; CUDA ist Pflicht.
- Fork-Repository: github.com/adrianhoehne/llama.cpp, aktuell nur Linux/CUDA
- Getestete Modelle: Qwen3-35B-A3B und Gemma-26B-A4B (MoE-Architektur)
- Break-Even-Hit-Rate für Geschwindigkeitsvorteil liegt bei 42 % Expert-Cache-Treffer
- Autor nutzt ausschließlich Q6-Quantisierung und unkomprimierten 100k-Kontext für Java-Entwicklung
- Integriertes UI-Monitoring zeigt live, welche Experten aktiv sind – als Button in der Llama-UI
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
llama.cpp-Fork: Experten-First-Ansatz steigert MoE-Inferenz auf 12-GB-GPUs
Reddit-Nutzer comanderxv hat einen experimentellen Fork von llama.cpp veröffentlicht, der die Inferenz von Mixture-of-Experts-Modellen auf VRAM-knappen Systemen optimiert. Statt vollständige Layer in den VRAM zu laden, werden nur die tatsächlich häufig aktivierten Experten gecacht. Hintergrund ist, dass Modelle wie Qwen3-35B-A3B pro Token nur 8 von insgesamt deutlich mehr Experten nutzen – der Rest belegt unnötig VRAM oder muss über langsame CPU-Pfade abgearbeitet werden. Mit einem eigens entwickelten Monitoring-UI stellte der Autor fest, dass frühe Layer ihre Experten häufiger wechseln als späte und daher Priorität im VRAM erhalten sollten. Das Standard-Flag --n-cpu-moe in llama.cpp legt jedoch gerade die ersten Layer auf die CPU. Der Fork führt zwei neue Flags ein: --moe-layer-perf-out zur Profilerstellung und --moe-hot-cache zum Laden des optimierten Expert-Profils. Auf einer RTX 2060 (12 GB VRAM) steigt der Durchsatz von 19 tk/s (Standard) auf 26 tk/s bei einer Expert-Hit-Rate von 62 %; der Break-Even liegt bei 42 %. Der Entwickler sucht Tester mit RTX 3060 oder 4060 unter Linux; CUDA ist Pflicht.
- Fork-Repository: github.com/adrianhoehne/llama.cpp, aktuell nur Linux/CUDA
- Getestete Modelle: Qwen3-35B-A3B und Gemma-26B-A4B (MoE-Architektur)
- Break-Even-Hit-Rate für Geschwindigkeitsvorteil liegt bei 42 % Expert-Cache-Treffer
- Autor nutzt ausschließlich Q6-Quantisierung und unkomprimierten 100k-Kontext für Java-Entwicklung
- Integriertes UI-Monitoring zeigt live, welche Experten aktiv sind – als Button in der Llama-UI
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.