VRAM-sparsame Sub-Agenten mit llama.cpp und pi coding agent
Der Reddit-Nutzer sisyphus-cycle beschreibt das Problem, dass kommerzielle Sub-Agenten-Implementierungen keinerlei Rücksicht auf VRAM-beschränkte lokale Hardware nehmen. Mit nur 10 GB VRAM und einem einzigen KV-Cache-Slot im llama.cpp-Server ist das parallele Spawnen mehrerer Agenten schlicht nicht möglich. Als Lösung hat er – unterstützt durch Qwen3.6-35b-a3b – einen Fork eines bestehenden Sub-Agenten-Repositories für den pi coding agent entwickelt. Kernmerkmal: Sub-Agenten werden sequenziell ausgeführt, ohne dass nach Rückkehr zum Hauptagenten der gesamte Prompt neu verarbeitet werden muss. Geplant ist außerdem die Möglichkeit, Sub-Agenten ohne vorherigen Kontext zu starten und den Hauptkontext über `--slot-save-path` und den `slots`-Endpoint zu persistieren – allerdings sind die erzeugten `.bin`-Dateien laut Autor sehr groß. Als Hardware-Randinformation erwähnt er, mit dem Apex-Qwen-Variant und aktiviertem MTP (Multi-Token Prediction) im llama.cpp-Hauptbranch bei 175–200k Kontext (q_8 KV) 200–300 Prompt-Processing-Tokens/s und 25–40 Tokens/s Generierungsrate zu erreichen.
- Fork des pi-coding-agent-Repos: Sub-Agenten ohne vollständiges Prompt-Reprocessing nach Agenten-Wechsel
- Zielgruppe: llama.cpp-Nutzer mit 10 GB VRAM und nur einem KV-Cache-Slot
- Entwicklung erfolgte teilweise per Vibe-Coding mit Qwen3.6-35b-a3b als Assistenten
- Geplant: Sub-Agenten ohne vorherigen Kontext + Kontextspeicherung via --slot-save-path/slots-Endpoint
- MTP im llama.cpp-Hauptbranch liefert mit Apex-Qwen-Variant 25–40 tps bei 175–200k Kontext (q_8 KV)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com2w
Reddit-Idee: Claude Code als Orchestrator mit lokalem LLM via Pi.dev
- MEINUNGreddit.com4d
Reddit-Community diskutiert Multi-Agent-Setups mit lokalen LLMs
- MEINUNGreddit.com2w
Lokales LLM-Setup: Autocomplete + Agentisches Coding auf einer RTX 5080
- LAUNCHreddit.com1d
Autoswarm: Lokale LLM-Agenten optimieren sich selbst via Reflect-and-Rewrite
VRAM-sparsame Sub-Agenten mit llama.cpp und pi coding agent
Der Reddit-Nutzer sisyphus-cycle beschreibt das Problem, dass kommerzielle Sub-Agenten-Implementierungen keinerlei Rücksicht auf VRAM-beschränkte lokale Hardware nehmen. Mit nur 10 GB VRAM und einem einzigen KV-Cache-Slot im llama.cpp-Server ist das parallele Spawnen mehrerer Agenten schlicht nicht möglich. Als Lösung hat er – unterstützt durch Qwen3.6-35b-a3b – einen Fork eines bestehenden Sub-Agenten-Repositories für den pi coding agent entwickelt. Kernmerkmal: Sub-Agenten werden sequenziell ausgeführt, ohne dass nach Rückkehr zum Hauptagenten der gesamte Prompt neu verarbeitet werden muss. Geplant ist außerdem die Möglichkeit, Sub-Agenten ohne vorherigen Kontext zu starten und den Hauptkontext über `--slot-save-path` und den `slots`-Endpoint zu persistieren – allerdings sind die erzeugten `.bin`-Dateien laut Autor sehr groß. Als Hardware-Randinformation erwähnt er, mit dem Apex-Qwen-Variant und aktiviertem MTP (Multi-Token Prediction) im llama.cpp-Hauptbranch bei 175–200k Kontext (q_8 KV) 200–300 Prompt-Processing-Tokens/s und 25–40 Tokens/s Generierungsrate zu erreichen.
- Fork des pi-coding-agent-Repos: Sub-Agenten ohne vollständiges Prompt-Reprocessing nach Agenten-Wechsel
- Zielgruppe: llama.cpp-Nutzer mit 10 GB VRAM und nur einem KV-Cache-Slot
- Entwicklung erfolgte teilweise per Vibe-Coding mit Qwen3.6-35b-a3b als Assistenten
- Geplant: Sub-Agenten ohne vorherigen Kontext + Kontextspeicherung via --slot-save-path/slots-Endpoint
- MTP im llama.cpp-Hauptbranch liefert mit Apex-Qwen-Variant 25–40 tps bei 175–200k Kontext (q_8 KV)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com2w
Reddit-Idee: Claude Code als Orchestrator mit lokalem LLM via Pi.dev
- MEINUNGreddit.com4d
Reddit-Community diskutiert Multi-Agent-Setups mit lokalen LLMs
- MEINUNGreddit.com2w
Lokales LLM-Setup: Autocomplete + Agentisches Coding auf einer RTX 5080
- LAUNCHreddit.com1d
Autoswarm: Lokale LLM-Agenten optimieren sich selbst via Reflect-and-Rewrite