llama.cpp: KV-Cache-Trick beschleunigt Decode-Phase deutlich
Ein Nutzer auf r/LocalLLaMA hat eine wenig bekannte Entwickler-Option in llama.cpps WebUI entdeckt, die die Antwortgeschwindigkeit beim KV-Cache-Decode messbar verbessert. Das Feature sendet alle im aktuellen Turn generierten Tokens direkt zurück in den KV-Cache, anstatt erst auf den nächsten User-Prompt zu warten. Das verkürzt die Prompt-Processing-Phase beim Folge-Turn erheblich. Der Autor beschreibt Wartezeiten von 5–30 Sekunden in Open-WebUI, wenn Qwen große Webseiten oder Tool-Ergebnisse verarbeitet – nach Aktivierung der Option sei dies nahezu verschwunden. Die Einstellung wirkt global auf alle Requests an llama-server, nicht nur auf Anfragen über das eingebaute WebUI. Als Testsystem dient ein Qwen3.6-35B-A3B-Modell, quantisiert auf MXFP4 und vollständig auf eine AMD RX 7900 XTX ausgelagert, mit rund 100 Tokens pro Sekunde. Einschränkung: MTP (Multi-Token Prediction) ist derzeit noch nicht mit Vision-Encodern kompatibel. Der Trick gilt als Workaround, zeigt bislang aber keine nennenswerten Nachteile.
- Die Option ist in den Entwickler-Einstellungen von llama.cpps eingebautem WebUI zu finden und muss manuell aktiviert werden.
- Sie wirkt serverübergreifend – alle Clients (Open-WebUI, Hermes, OpenCode), die llama-server nutzen, profitieren davon.
- Testsystem: Qwen3.6-35B-A3B @ MXFP4, single AMD RX 7900 XTX, ~100 Tokens/s.
- MTP-Kompatibilität mit Vision-Encodern fehlt noch – das Feature wäre laut Autor besonders wertvoll in Kombination mit MTP-Patches.
- Wartezeiten beim Prompt-Processing sanken in Open-WebUI von 5–30 Sekunden auf nahezu null.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
llama.cpp: KV-Cache-Trick beschleunigt Decode-Phase deutlich
Ein Nutzer auf r/LocalLLaMA hat eine wenig bekannte Entwickler-Option in llama.cpps WebUI entdeckt, die die Antwortgeschwindigkeit beim KV-Cache-Decode messbar verbessert. Das Feature sendet alle im aktuellen Turn generierten Tokens direkt zurück in den KV-Cache, anstatt erst auf den nächsten User-Prompt zu warten. Das verkürzt die Prompt-Processing-Phase beim Folge-Turn erheblich. Der Autor beschreibt Wartezeiten von 5–30 Sekunden in Open-WebUI, wenn Qwen große Webseiten oder Tool-Ergebnisse verarbeitet – nach Aktivierung der Option sei dies nahezu verschwunden. Die Einstellung wirkt global auf alle Requests an llama-server, nicht nur auf Anfragen über das eingebaute WebUI. Als Testsystem dient ein Qwen3.6-35B-A3B-Modell, quantisiert auf MXFP4 und vollständig auf eine AMD RX 7900 XTX ausgelagert, mit rund 100 Tokens pro Sekunde. Einschränkung: MTP (Multi-Token Prediction) ist derzeit noch nicht mit Vision-Encodern kompatibel. Der Trick gilt als Workaround, zeigt bislang aber keine nennenswerten Nachteile.
- Die Option ist in den Entwickler-Einstellungen von llama.cpps eingebautem WebUI zu finden und muss manuell aktiviert werden.
- Sie wirkt serverübergreifend – alle Clients (Open-WebUI, Hermes, OpenCode), die llama-server nutzen, profitieren davon.
- Testsystem: Qwen3.6-35B-A3B @ MXFP4, single AMD RX 7900 XTX, ~100 Tokens/s.
- MTP-Kompatibilität mit Vision-Encodern fehlt noch – das Feature wäre laut Autor besonders wertvoll in Kombination mit MTP-Patches.
- Wartezeiten beim Prompt-Processing sanken in Open-WebUI von 5–30 Sekunden auf nahezu null.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.