Lokales Multi-Agent-Coding-Setup mit RTX 3090, pi.dev und Qwen3.6 MTP
Der Reddit-Nutzer beschreibt einen seit mehreren Monaten produktiv genutzten lokalen AI-Coding-Stack, der vollständig auf einer NVIDIA RTX 3090 mit 24 GB VRAM läuft. Kernkomponenten sind pi.dev (ein agentenbasiertes Coding-Harness mit 49.300 GitHub-Sternen), llama-swap als Model-Router für Hot-Swapping von llama.cpp-Modellen sowie zwei Qwen3.6-Varianten mit Multi-Token Prediction (MTP): Qwen3.6-27B für die sogenannten BRAIN-Agenten (Orchestrator, Planer, Architekt, Debugger, Prompter) und das MoE-Modell Qwen3.6-35B-A3B für die BODY-Agenten (Coder, Researcher, Reviewer, Tester, Dokumentar, Refactorer). Das Designprinzip: das kleinere, schnellere Modell übernimmt Metaarbeit wie Planung und Delegation, das größere MoE-Modell die eigentliche Implementierung. Als lokale Suche kommt SearXNG via Docker zum Einsatz, ergänzt durch ein MCP-Proxy für die Integration in pi.dev. Die Agentenrollen werden über individuelle Markdown-Dateien mit YAML-Frontmatter konfiguriert, die Modell-Alias, Denktiefe, Tool-Zugriff und Turn-Limits definieren. Der Guide betont insbesondere die AGENTS.md-Datei als zentralen Steuerungsmechanismus.
- 11 spezialisierte Agenten in zwei Gruppen: 5 BRAIN-Agenten (Qwen3.6-27B MTP) und 6 BODY-Agenten (Qwen3.6-35B-A3B MTP)
- llama-swap (am17an-Fork von llama.cpp) ermöglicht On-Demand-Modellwechsel ohne Neustart
- SearXNG läuft lokal in Docker auf Port 8080, via searxng-simple-mcp an pi.dev angebunden (Port 8000)
- pi.dev auf GitHub: earendil-works/pi mit 49.300 Sternen; Entwickler wurde von einem Unternehmen verpflichtet, entwickelt aber weiter
- Agentenverhalten wird pro Agent in .md-Dateien unter ~/.pi/agent/agents/ mit YAML-Frontmatter konfiguriert (Felder: model, thinking, max_turns, tools)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Lokales Multi-Agent-Coding-Setup mit RTX 3090, pi.dev und Qwen3.6 MTP
Der Reddit-Nutzer beschreibt einen seit mehreren Monaten produktiv genutzten lokalen AI-Coding-Stack, der vollständig auf einer NVIDIA RTX 3090 mit 24 GB VRAM läuft. Kernkomponenten sind pi.dev (ein agentenbasiertes Coding-Harness mit 49.300 GitHub-Sternen), llama-swap als Model-Router für Hot-Swapping von llama.cpp-Modellen sowie zwei Qwen3.6-Varianten mit Multi-Token Prediction (MTP): Qwen3.6-27B für die sogenannten BRAIN-Agenten (Orchestrator, Planer, Architekt, Debugger, Prompter) und das MoE-Modell Qwen3.6-35B-A3B für die BODY-Agenten (Coder, Researcher, Reviewer, Tester, Dokumentar, Refactorer). Das Designprinzip: das kleinere, schnellere Modell übernimmt Metaarbeit wie Planung und Delegation, das größere MoE-Modell die eigentliche Implementierung. Als lokale Suche kommt SearXNG via Docker zum Einsatz, ergänzt durch ein MCP-Proxy für die Integration in pi.dev. Die Agentenrollen werden über individuelle Markdown-Dateien mit YAML-Frontmatter konfiguriert, die Modell-Alias, Denktiefe, Tool-Zugriff und Turn-Limits definieren. Der Guide betont insbesondere die AGENTS.md-Datei als zentralen Steuerungsmechanismus.
- 11 spezialisierte Agenten in zwei Gruppen: 5 BRAIN-Agenten (Qwen3.6-27B MTP) und 6 BODY-Agenten (Qwen3.6-35B-A3B MTP)
- llama-swap (am17an-Fork von llama.cpp) ermöglicht On-Demand-Modellwechsel ohne Neustart
- SearXNG läuft lokal in Docker auf Port 8080, via searxng-simple-mcp an pi.dev angebunden (Port 8000)
- pi.dev auf GitHub: earendil-works/pi mit 49.300 Sternen; Entwickler wurde von einem Unternehmen verpflichtet, entwickelt aber weiter
- Agentenverhalten wird pro Agent in .md-Dateien unter ~/.pi/agent/agents/ mit YAML-Frontmatter konfiguriert (Felder: model, thinking, max_turns, tools)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.