Llama.cpp: Context-Kompression bei lokalen Agenten ohne Cache-Invalidierung gesucht

CompaniesAMD

Warum es zählt

Das Problem zeigt eine praktische Lücke bei lokalem Agentendeployment: Während Qwen 3.6 für Professional-Use mit Coding tauglich ist, werden Multi-Turn-Sessions durch Cache-Ineffizienz unbenutzbar. Lösungsansätze könnten llama.cpp und Agent-Frameworks direkt beeinflussen.

— Lumeric Redaktion

Reddit-Nutzer berichtet von Bottleneck beim lokalen Betrieb von Qwen 3.6 35B mit Coding-Agenten: Context-Kompression erzwingt vollständige Neu-Verarbeitung und Cache-Invalidierung, was auch bei 1000+ tps erhebliche Wartezeiten für 200k+ Token verursacht.

Was wir noch wissen

AMD 5800X + RX 6800XT erreicht 1000+ tps bei Prompt-Verarbeitung, 15-22 tps bei Token-Generierung für Qwen 3.6 35B
Context-Limit von 230k Token wird häufig erreicht; Kompression betrifft alle bekannten Agenten (Kilo, OpenCode, Pi)
Llama.cpp mit ROCM 7.2.2 und spekulativen Decoding (ngram-mod) lokal kompiliert
Benutzerkonfiguration nutzt Chat-Template-Caching mit Jinja und präzise Samplingparameter (min-p 0.0, presence-penalty 0.0)

Quelle lesenreddit.com

Open Source Agents Coding Assistenten

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Llama.cpp: Context-Kompression bei lokalen Agenten ohne Cache-Invalidierung gesucht

ToolsQwen Llama

CompaniesAMD

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

AMD 5800X + RX 6800XT erreicht 1000+ tps bei Prompt-Verarbeitung, 15-22 tps bei Token-Generierung für Qwen 3.6 35B
Context-Limit von 230k Token wird häufig erreicht; Kompression betrifft alle bekannten Agenten (Kilo, OpenCode, Pi)
Llama.cpp mit ROCM 7.2.2 und spekulativen Decoding (ngram-mod) lokal kompiliert
Benutzerkonfiguration nutzt Chat-Template-Caching mit Jinja und präzise Samplingparameter (min-p 0.0, presence-penalty 0.0)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Llama.cpp: Context-Kompression bei lokalen Agenten ohne Cache-Invalidierung gesucht

Frag die KI zum Artikel

Verwandte Beiträge

Llama.cpp: Context-Kompression bei lokalen Agenten ohne Cache-Invalidierung gesucht

Frag die KI zum Artikel

Verwandte Beiträge