VRAM-sparsame Sub-Agenten mit llama.cpp und pi coding agent

Warum es zählt

Wer lokal mit llama.cpp auf wenig VRAM arbeitet, kann jetzt Sub-Agenten nutzen, ohne jeden Kontext neu zu verarbeiten – ein konkreter Workaround für ein bisher kaum adressiertes Problem in lokalen Agentic-Setups.

— Lumeric Redaktion

Der Reddit-Nutzer sisyphus-cycle beschreibt das Problem, dass kommerzielle Sub-Agenten-Implementierungen keinerlei Rücksicht auf VRAM-beschränkte lokale Hardware nehmen. Mit nur 10 GB VRAM und einem einzigen KV-Cache-Slot im llama.cpp-Server ist das parallele Spawnen mehrerer Agenten schlicht nicht möglich. Als Lösung hat er – unterstützt durch Qwen3.6-35b-a3b – einen Fork eines bestehenden Sub-Agenten-Repositories für den pi coding agent entwickelt. Kernmerkmal: Sub-Agenten werden sequenziell ausgeführt, ohne dass nach Rückkehr zum Hauptagenten der gesamte Prompt neu verarbeitet werden muss. Geplant ist außerdem die Möglichkeit, Sub-Agenten ohne vorherigen Kontext zu starten und den Hauptkontext über `--slot-save-path` und den `slots`-Endpoint zu persistieren – allerdings sind die erzeugten `.bin`-Dateien laut Autor sehr groß. Als Hardware-Randinformation erwähnt er, mit dem Apex-Qwen-Variant und aktiviertem MTP (Multi-Token Prediction) im llama.cpp-Hauptbranch bei 175–200k Kontext (q_8 KV) 200–300 Prompt-Processing-Tokens/s und 25–40 Tokens/s Generierungsrate zu erreichen.

Was wir noch wissen

Fork des pi-coding-agent-Repos: Sub-Agenten ohne vollständiges Prompt-Reprocessing nach Agenten-Wechsel
Zielgruppe: llama.cpp-Nutzer mit 10 GB VRAM und nur einem KV-Cache-Slot
Entwicklung erfolgte teilweise per Vibe-Coding mit Qwen3.6-35b-a3b als Assistenten
Geplant: Sub-Agenten ohne vorherigen Kontext + Kontextspeicherung via --slot-save-path/slots-Endpoint
MTP im llama.cpp-Hauptbranch liefert mit Apex-Qwen-Variant 25–40 tps bei 175–200k Kontext (q_8 KV)

Quelle lesenreddit.com

Agents Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

VRAM-sparsame Sub-Agenten mit llama.cpp und pi coding agent

ToolsClaude GPT Qwen Llama

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Fork des pi-coding-agent-Repos: Sub-Agenten ohne vollständiges Prompt-Reprocessing nach Agenten-Wechsel
Zielgruppe: llama.cpp-Nutzer mit 10 GB VRAM und nur einem KV-Cache-Slot
Entwicklung erfolgte teilweise per Vibe-Coding mit Qwen3.6-35b-a3b als Assistenten
Geplant: Sub-Agenten ohne vorherigen Kontext + Kontextspeicherung via --slot-save-path/slots-Endpoint
MTP im llama.cpp-Hauptbranch liefert mit Apex-Qwen-Variant 25–40 tps bei 175–200k Kontext (q_8 KV)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

VRAM-sparsame Sub-Agenten mit llama.cpp und pi coding agent

Frag die KI zum Artikel

Verwandte Beiträge

VRAM-sparsame Sub-Agenten mit llama.cpp und pi coding agent

Frag die KI zum Artikel

Verwandte Beiträge