llama.cpp WebUI im Praxistest: Stärken und Lücken im Überblick

Warum es zählt

Die Echtzeit-Token-Anzeige von llama.cpp ist für Context-Management entscheidend, aber fehlende MCP-Tool-Controls und der Gesprächsverlust bei Tool-Call-Fehlern machen sie für produktiven Agent-Einsatz noch unfertig. Der gezeigte MCP-Proxy-Workaround zeigt, wie unkontrollierte Filesystem-Tools den Kontext auf 100k Token aufblähen können.

— Lumeric Redaktion

Der Reddit-Nutzer gigachad_deluxe hat mehrere lokale Chat-UIs für den Entwicklungseinsatz getestet – darunter Jan.ai, AnythingLLM, LibreChat und Open WebUI – und sieht die llama.cpp WebUI als stärkste Option. Das Killer-Feature ist der Token-Counter, der während Prefill und Antwortgenerierung den verbrauchten Kontextanteil anzeigt, anstatt nur einen Lade-Spinner zu zeigen. Kritisch bemängelt er drei fehlende Funktionen: erstens, dass ein fehlgeschlagener Tool-Call den gesamten Gesprächsverlauf löscht (Workaround: regelmäßiges Forken); zweitens, fehlende Folder- bzw. Workspace-Strukturen mit eigenen System-Prompts; drittens, fehlende MCP-Tool-Controls zum Ausblenden einzelner Tools. Als Eigenentwicklung hat er einen JavaScript-MCP-Proxy gebaut, der Tools filtert und insbesondere die Filesystem-Tools `list_directory` und `directory_tree` auf Basis von Musterregeln einschränkt – da diese bei unkontrollierten Verzeichnisscans leicht 100k Token Kontext verbrauchen können. Der Proxy wird per `npx mcp-proxy` auf Port 8287 gestartet und ermöglicht das Scannen von Projekten ohne unkontrollierten Kontextverschleiß.

Was wir noch wissen

Token-Counter während Prefill und Antwort ist Hauptvorteil gegenüber Jan.ai, AnythingLLM, LibreChat und Open WebUI.
Tool-Call-Fehler löscht aktuell den gesamten Gesprächsverlauf – Workaround: regelmäßiges Forken der Konversation.
Fehlende Folders/Workspaces/Projects mit eigenen System-Prompts als zweite große Lücke.
Selbstgebauter JS-MCP-Proxy filtert Filesystem-Tools (list_directory, directory_tree) per Muster, um unkontrollierten 100k-Token-Kontextverbrauch zu verhindern.
Proxy-Start per: npx -y mcp-proxy --port 8287 -- node "path-to-filter/agent-infra-filesystem-mcp-filter.js"

Quelle lesenreddit.com

Agents Developer Tooling Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp WebUI im Praxistest: Stärken und Lücken im Überblick

ToolsModel Context Protocol Llama

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Token-Counter während Prefill und Antwort ist Hauptvorteil gegenüber Jan.ai, AnythingLLM, LibreChat und Open WebUI.
Tool-Call-Fehler löscht aktuell den gesamten Gesprächsverlauf – Workaround: regelmäßiges Forken der Konversation.
Fehlende Folders/Workspaces/Projects mit eigenen System-Prompts als zweite große Lücke.
Selbstgebauter JS-MCP-Proxy filtert Filesystem-Tools (list_directory, directory_tree) per Muster, um unkontrollierten 100k-Token-Kontextverbrauch zu verhindern.
Proxy-Start per: npx -y mcp-proxy --port 8287 -- node "path-to-filter/agent-infra-filesystem-mcp-filter.js"

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp WebUI im Praxistest: Stärken und Lücken im Überblick

Frag die KI zum Artikel

Verwandte Beiträge

llama.cpp WebUI im Praxistest: Stärken und Lücken im Überblick

Frag die KI zum Artikel

Verwandte Beiträge