llama.cpp PR #22929 behebt vollständiges Kontext-Reprocessing bei Agentic Coding
Bei agentenbasiertem Coding mit llama.cpp entsteht ein häufiges Performance-Problem: Tools wie opencode modifizieren die Konversationshistorie (z. B. um den Kontext zu komprimieren oder Reasoning-Tokens zu entfernen), woraufhin llama.cpp den gesamten Kontext neu verarbeiten muss. Bei typischen Agentic-Coding-Sessions mit 70k+ Tokens führt das zu spürbaren Wartezeiten und der Meldung „forcing full prompt re-processing...". PR #22929 von Nutzer jacekpoplawski adressiert dieses Problem auf Ebene der Checkpoint-Erstellung im llama.cpp-Server: Statt immer den worst case (vollständiges Reprocessing) zu triggern, soll der Fix sicherstellen, dass llama.cpp nur den tatsächlich veränderten Kontextabschnitt neu verarbeitet. Der Autor berichtet, den Fix zwei Wochen lang in der Praxis getestet zu haben, mit spürbar besserer Reaktionsfähigkeit bei Agenten-Workflows. Als Workarounds ohne den Fix nennt er den Wechsel zu Tools ohne Kontext-Rewriting (z. B. pi statt opencode) sowie die Option „preserve thinking" bei Modellen wie Qwen 3.6, um das Entfernen von Reasoning-Tokens zu verhindern.
- PR #22929 zielt auf den ggml-org/llama.cpp-Server-Code ab und betrifft die Checkpoint-Erstellungslogik.
- Worst Case ohne Fix: 70k-Token-Kontext wird vollständig neu verarbeitet, wenn ein Agent auch nur einen kleinen Teil der History ändert.
- Konkrete Workarounds: Wechsel von opencode zu pi (kein Kontext-Rewriting) oder Aktivierung von 'preserve thinking' für Qwen 3.6.
- Autor jacekpoplawski (Reddit: jacek2023) hat den Patch zwei Wochen lang produktiv eingesetzt.
- Das Problem tritt auch auf, wenn Modelle selbst Reasoning-Tokens aus dem Kontext entfernen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
llama.cpp PR #22929 behebt vollständiges Kontext-Reprocessing bei Agentic Coding
Bei agentenbasiertem Coding mit llama.cpp entsteht ein häufiges Performance-Problem: Tools wie opencode modifizieren die Konversationshistorie (z. B. um den Kontext zu komprimieren oder Reasoning-Tokens zu entfernen), woraufhin llama.cpp den gesamten Kontext neu verarbeiten muss. Bei typischen Agentic-Coding-Sessions mit 70k+ Tokens führt das zu spürbaren Wartezeiten und der Meldung „forcing full prompt re-processing...". PR #22929 von Nutzer jacekpoplawski adressiert dieses Problem auf Ebene der Checkpoint-Erstellung im llama.cpp-Server: Statt immer den worst case (vollständiges Reprocessing) zu triggern, soll der Fix sicherstellen, dass llama.cpp nur den tatsächlich veränderten Kontextabschnitt neu verarbeitet. Der Autor berichtet, den Fix zwei Wochen lang in der Praxis getestet zu haben, mit spürbar besserer Reaktionsfähigkeit bei Agenten-Workflows. Als Workarounds ohne den Fix nennt er den Wechsel zu Tools ohne Kontext-Rewriting (z. B. pi statt opencode) sowie die Option „preserve thinking" bei Modellen wie Qwen 3.6, um das Entfernen von Reasoning-Tokens zu verhindern.
- PR #22929 zielt auf den ggml-org/llama.cpp-Server-Code ab und betrifft die Checkpoint-Erstellungslogik.
- Worst Case ohne Fix: 70k-Token-Kontext wird vollständig neu verarbeitet, wenn ein Agent auch nur einen kleinen Teil der History ändert.
- Konkrete Workarounds: Wechsel von opencode zu pi (kein Kontext-Rewriting) oder Aktivierung von 'preserve thinking' für Qwen 3.6.
- Autor jacekpoplawski (Reddit: jacek2023) hat den Patch zwei Wochen lang produktiv eingesetzt.
- Das Problem tritt auch auf, wenn Modelle selbst Reasoning-Tokens aus dem Kontext entfernen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.