llama.cpp PR #22929 behebt vollständiges Kontext-Reprocessing bei Agentic Coding

Warum es zählt

Wer llama.cpp für Agentic Coding mit langen Kontexten (50k+ Tokens) nutzt, profitiert direkt: Der Fix reduziert teure Full-Reprocessing-Zyklen auf das tatsächlich geänderte Kontextsegment und macht Agenten-Workflows spürbar schneller.

— Lumeric Redaktion

Bei agentenbasiertem Coding mit llama.cpp entsteht ein häufiges Performance-Problem: Tools wie opencode modifizieren die Konversationshistorie (z. B. um den Kontext zu komprimieren oder Reasoning-Tokens zu entfernen), woraufhin llama.cpp den gesamten Kontext neu verarbeiten muss. Bei typischen Agentic-Coding-Sessions mit 70k+ Tokens führt das zu spürbaren Wartezeiten und der Meldung „forcing full prompt re-processing...". PR #22929 von Nutzer jacekpoplawski adressiert dieses Problem auf Ebene der Checkpoint-Erstellung im llama.cpp-Server: Statt immer den worst case (vollständiges Reprocessing) zu triggern, soll der Fix sicherstellen, dass llama.cpp nur den tatsächlich veränderten Kontextabschnitt neu verarbeitet. Der Autor berichtet, den Fix zwei Wochen lang in der Praxis getestet zu haben, mit spürbar besserer Reaktionsfähigkeit bei Agenten-Workflows. Als Workarounds ohne den Fix nennt er den Wechsel zu Tools ohne Kontext-Rewriting (z. B. pi statt opencode) sowie die Option „preserve thinking" bei Modellen wie Qwen 3.6, um das Entfernen von Reasoning-Tokens zu verhindern.

Was wir noch wissen

PR #22929 zielt auf den ggml-org/llama.cpp-Server-Code ab und betrifft die Checkpoint-Erstellungslogik.
Worst Case ohne Fix: 70k-Token-Kontext wird vollständig neu verarbeitet, wenn ein Agent auch nur einen kleinen Teil der History ändert.
Konkrete Workarounds: Wechsel von opencode zu pi (kein Kontext-Rewriting) oder Aktivierung von 'preserve thinking' für Qwen 3.6.
Autor jacekpoplawski (Reddit: jacek2023) hat den Patch zwei Wochen lang produktiv eingesetzt.
Das Problem tritt auch auf, wenn Modelle selbst Reasoning-Tokens aus dem Kontext entfernen.

Quelle lesenreddit.com

Agents Inferenz Infra Coding Assistenten

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp PR #22929 behebt vollständiges Kontext-Reprocessing bei Agentic Coding

ToolsQwen Llama

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

PR #22929 zielt auf den ggml-org/llama.cpp-Server-Code ab und betrifft die Checkpoint-Erstellungslogik.
Worst Case ohne Fix: 70k-Token-Kontext wird vollständig neu verarbeitet, wenn ein Agent auch nur einen kleinen Teil der History ändert.
Konkrete Workarounds: Wechsel von opencode zu pi (kein Kontext-Rewriting) oder Aktivierung von 'preserve thinking' für Qwen 3.6.
Autor jacekpoplawski (Reddit: jacek2023) hat den Patch zwei Wochen lang produktiv eingesetzt.
Das Problem tritt auch auf, wenn Modelle selbst Reasoning-Tokens aus dem Kontext entfernen.

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp PR #22929 behebt vollständiges Kontext-Reprocessing bei Agentic Coding

Frag die KI zum Artikel

Verwandte Beiträge

llama.cpp PR #22929 behebt vollständiges Kontext-Reprocessing bei Agentic Coding

Frag die KI zum Artikel

Verwandte Beiträge