Lokales Multi-Agent-Coding-Setup mit RTX 3090, pi.dev und Qwen3.6 MTP

ToolsClaude Claude Code Qwen Model Context Protocol NVIDIA Hardware Llama Replicate

Warum es zählt

Der Stack zeigt, wie 11 spezialisierte Agenten (BRAIN/BODY-Aufteilung mit Qwen3.6-27B und Qwen3.6-35B-A3B) via llama-swap auf einer einzigen Consumer-GPU koordiniert werden – ein praxisnaher Blaupause für datenschutzkonforme lokale Agentenarchitekturen.

— Lumeric Redaktion

Der Reddit-Nutzer beschreibt einen seit mehreren Monaten produktiv genutzten lokalen AI-Coding-Stack, der vollständig auf einer NVIDIA RTX 3090 mit 24 GB VRAM läuft. Kernkomponenten sind pi.dev (ein agentenbasiertes Coding-Harness mit 49.300 GitHub-Sternen), llama-swap als Model-Router für Hot-Swapping von llama.cpp-Modellen sowie zwei Qwen3.6-Varianten mit Multi-Token Prediction (MTP): Qwen3.6-27B für die sogenannten BRAIN-Agenten (Orchestrator, Planer, Architekt, Debugger, Prompter) und das MoE-Modell Qwen3.6-35B-A3B für die BODY-Agenten (Coder, Researcher, Reviewer, Tester, Dokumentar, Refactorer). Das Designprinzip: das kleinere, schnellere Modell übernimmt Metaarbeit wie Planung und Delegation, das größere MoE-Modell die eigentliche Implementierung. Als lokale Suche kommt SearXNG via Docker zum Einsatz, ergänzt durch ein MCP-Proxy für die Integration in pi.dev. Die Agentenrollen werden über individuelle Markdown-Dateien mit YAML-Frontmatter konfiguriert, die Modell-Alias, Denktiefe, Tool-Zugriff und Turn-Limits definieren. Der Guide betont insbesondere die AGENTS.md-Datei als zentralen Steuerungsmechanismus.

Was wir noch wissen

11 spezialisierte Agenten in zwei Gruppen: 5 BRAIN-Agenten (Qwen3.6-27B MTP) und 6 BODY-Agenten (Qwen3.6-35B-A3B MTP)
llama-swap (am17an-Fork von llama.cpp) ermöglicht On-Demand-Modellwechsel ohne Neustart
SearXNG läuft lokal in Docker auf Port 8080, via searxng-simple-mcp an pi.dev angebunden (Port 8000)
pi.dev auf GitHub: earendil-works/pi mit 49.300 Sternen; Entwickler wurde von einem Unternehmen verpflichtet, entwickelt aber weiter
Agentenverhalten wird pro Agent in .md-Dateien unter ~/.pi/agent/agents/ mit YAML-Frontmatter konfiguriert (Felder: model, thinking, max_turns, tools)

Quelle lesenreddit.com

Agents Open Source Coding Assistenten

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Lokales Multi-Agent-Coding-Setup mit RTX 3090, pi.dev und Qwen3.6 MTP

ToolsClaude Claude Code Qwen Model Context Protocol NVIDIA Hardware Llama Replicate

CompaniesNVIDIA Meta AI

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

11 spezialisierte Agenten in zwei Gruppen: 5 BRAIN-Agenten (Qwen3.6-27B MTP) und 6 BODY-Agenten (Qwen3.6-35B-A3B MTP)
llama-swap (am17an-Fork von llama.cpp) ermöglicht On-Demand-Modellwechsel ohne Neustart
SearXNG läuft lokal in Docker auf Port 8080, via searxng-simple-mcp an pi.dev angebunden (Port 8000)
pi.dev auf GitHub: earendil-works/pi mit 49.300 Sternen; Entwickler wurde von einem Unternehmen verpflichtet, entwickelt aber weiter
Agentenverhalten wird pro Agent in .md-Dateien unter ~/.pi/agent/agents/ mit YAML-Frontmatter konfiguriert (Felder: model, thinking, max_turns, tools)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Lokales Multi-Agent-Coding-Setup mit RTX 3090, pi.dev und Qwen3.6 MTP

Frag die KI zum Artikel

Verwandte Beiträge

Lokales Multi-Agent-Coding-Setup mit RTX 3090, pi.dev und Qwen3.6 MTP

Frag die KI zum Artikel

Verwandte Beiträge