llama.cpp: KV-Cache-Trick beschleunigt Decode-Phase deutlich

CompaniesAMD

Warum es zählt

Wer llama-server mit Tools oder Web-Scraping nutzt, kann durch die Option Prompt-Processing-Verzögerungen von 5–30 Sekunden nahezu eliminieren – ohne Code-Änderungen, nur via WebUI-Einstellung.

— Lumeric Redaktion

Ein Nutzer auf r/LocalLLaMA hat eine wenig bekannte Entwickler-Option in llama.cpps WebUI entdeckt, die die Antwortgeschwindigkeit beim KV-Cache-Decode messbar verbessert. Das Feature sendet alle im aktuellen Turn generierten Tokens direkt zurück in den KV-Cache, anstatt erst auf den nächsten User-Prompt zu warten. Das verkürzt die Prompt-Processing-Phase beim Folge-Turn erheblich. Der Autor beschreibt Wartezeiten von 5–30 Sekunden in Open-WebUI, wenn Qwen große Webseiten oder Tool-Ergebnisse verarbeitet – nach Aktivierung der Option sei dies nahezu verschwunden. Die Einstellung wirkt global auf alle Requests an llama-server, nicht nur auf Anfragen über das eingebaute WebUI. Als Testsystem dient ein Qwen3.6-35B-A3B-Modell, quantisiert auf MXFP4 und vollständig auf eine AMD RX 7900 XTX ausgelagert, mit rund 100 Tokens pro Sekunde. Einschränkung: MTP (Multi-Token Prediction) ist derzeit noch nicht mit Vision-Encodern kompatibel. Der Trick gilt als Workaround, zeigt bislang aber keine nennenswerten Nachteile.

Was wir noch wissen

Die Option ist in den Entwickler-Einstellungen von llama.cpps eingebautem WebUI zu finden und muss manuell aktiviert werden.
Sie wirkt serverübergreifend – alle Clients (Open-WebUI, Hermes, OpenCode), die llama-server nutzen, profitieren davon.
Testsystem: Qwen3.6-35B-A3B @ MXFP4, single AMD RX 7900 XTX, ~100 Tokens/s.
MTP-Kompatibilität mit Vision-Encodern fehlt noch – das Feature wäre laut Autor besonders wertvoll in Kombination mit MTP-Patches.
Wartezeiten beim Prompt-Processing sanken in Open-WebUI von 5–30 Sekunden auf nahezu null.

Quelle lesenreddit.com

Inferenz Infra Open Source Developer Tooling

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp: KV-Cache-Trick beschleunigt Decode-Phase deutlich

ToolsQwen Llama

CompaniesAMD

Warum es zählt

Wer llama-server mit Tools oder Web-Scraping nutzt, kann durch die Option Prompt-Processing-Verzögerungen von 5–30 Sekunden nahezu eliminieren – ohne Code-Änderungen, nur via WebUI-Einstellung.

— Lumeric Redaktion

Was wir noch wissen

Die Option ist in den Entwickler-Einstellungen von llama.cpps eingebautem WebUI zu finden und muss manuell aktiviert werden.
Sie wirkt serverübergreifend – alle Clients (Open-WebUI, Hermes, OpenCode), die llama-server nutzen, profitieren davon.
Testsystem: Qwen3.6-35B-A3B @ MXFP4, single AMD RX 7900 XTX, ~100 Tokens/s.
MTP-Kompatibilität mit Vision-Encodern fehlt noch – das Feature wäre laut Autor besonders wertvoll in Kombination mit MTP-Patches.
Wartezeiten beim Prompt-Processing sanken in Open-WebUI von 5–30 Sekunden auf nahezu null.

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp: KV-Cache-Trick beschleunigt Decode-Phase deutlich

Frag die KI zum Artikel

Verwandte Beiträge

llama.cpp: KV-Cache-Trick beschleunigt Decode-Phase deutlich

Frag die KI zum Artikel

Verwandte Beiträge