Llama.cpp: Context-Kompression bei lokalen Agenten ohne Cache-Invalidierung gesucht
CompaniesAMD
Warum es zählt
Das Problem zeigt eine praktische Lücke bei lokalem Agentendeployment: Während Qwen 3.6 für Professional-Use mit Coding tauglich ist, werden Multi-Turn-Sessions durch Cache-Ineffizienz unbenutzbar. Lösungsansätze könnten llama.cpp und Agent-Frameworks direkt beeinflussen.
— Lumeric Redaktion
Reddit-Nutzer berichtet von Bottleneck beim lokalen Betrieb von Qwen 3.6 35B mit Coding-Agenten: Context-Kompression erzwingt vollständige Neu-Verarbeitung und Cache-Invalidierung, was auch bei 1000+ tps erhebliche Wartezeiten für 200k+ Token verursacht.
Was wir noch wissen
- AMD 5800X + RX 6800XT erreicht 1000+ tps bei Prompt-Verarbeitung, 15-22 tps bei Token-Generierung für Qwen 3.6 35B
- Context-Limit von 230k Token wird häufig erreicht; Kompression betrifft alle bekannten Agenten (Kilo, OpenCode, Pi)
- Llama.cpp mit ROCM 7.2.2 und spekulativen Decoding (ngram-mod) lokal kompiliert
- Benutzerkonfiguration nutzt Chat-Template-Caching mit Jinja und präzise Samplingparameter (min-p 0.0, presence-penalty 0.0)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Llama.cpp: Context-Kompression bei lokalen Agenten ohne Cache-Invalidierung gesucht
CompaniesAMD
Warum es zählt
Das Problem zeigt eine praktische Lücke bei lokalem Agentendeployment: Während Qwen 3.6 für Professional-Use mit Coding tauglich ist, werden Multi-Turn-Sessions durch Cache-Ineffizienz unbenutzbar. Lösungsansätze könnten llama.cpp und Agent-Frameworks direkt beeinflussen.
— Lumeric Redaktion
Reddit-Nutzer berichtet von Bottleneck beim lokalen Betrieb von Qwen 3.6 35B mit Coding-Agenten: Context-Kompression erzwingt vollständige Neu-Verarbeitung und Cache-Invalidierung, was auch bei 1000+ tps erhebliche Wartezeiten für 200k+ Token verursacht.
Was wir noch wissen
- AMD 5800X + RX 6800XT erreicht 1000+ tps bei Prompt-Verarbeitung, 15-22 tps bei Token-Generierung für Qwen 3.6 35B
- Context-Limit von 230k Token wird häufig erreicht; Kompression betrifft alle bekannten Agenten (Kilo, OpenCode, Pi)
- Llama.cpp mit ROCM 7.2.2 und spekulativen Decoding (ngram-mod) lokal kompiliert
- Benutzerkonfiguration nutzt Chat-Template-Caching mit Jinja und präzise Samplingparameter (min-p 0.0, presence-penalty 0.0)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.