Nutzer sucht Open-Source-Harness für Multi-Agent-Setup mit Qwen 27B lokal
Der Reddit-Nutzer GrungeWerX beschreibt eine Woche frustrierter Eigenentwicklung an einem Multi-Agent-System rund um seinen lokalen Agenten „Cass" (Qwen 3.6 27B UD K XL, Q4/Q5) auf Windows 10 mit RTX 3090 TI und 96 GB RAM. Als LLM-Server nutzt er LM Studio, ergänzt durch Docker-Dienste wie N8N, Redis mit RedisStack, Postgres mit pgvector und Dify. Das Kernproblem: Der Kontextspeicher läuft durch MCP-Tool-Nutzung schnell voll – der Wechsel auf Q4 KV ermöglicht immerhin bis zu 200K Token. Ein selbst geschriebener Agent-Spawner funktioniert prinzipiell, bietet jedoch kein Live-Monitoring der Sub-Agenten-Streams. Gesucht wird ein Harness mit einfachem GUI (auch Terminal-basiert akzeptabel), Anzeige von Kontext- und Max-Kontextgröße, Sub-Agent-Management mit individuellen System-Prompts und MCP-Tool-Zuweisung, einem Dashboard für parallele Agenten-Outputs sowie einer konfigurierbaren Prefill-Pipeline für kleinere Agenten. Cloud-Modelle werden ausdrücklich ausgeschlossen. Genannte, aber als unpassend eingestufte Alternativen: pi agent.
- Stack: Windows 10, i7-12700K, RTX 3090 TI, 96 GB RAM – Server: LM Studio
- Modelle: Qwen 3.5/3.6 27B UD K XL (Q4/Q5) + 0.8B/4B parallel auf CPU
- Kontextproblem gelöst via Q4 KV-Cache auf bis zu 200K Token, aber Sub-Agent-Sichtbarkeit fehlt
- Docker-Infrastruktur: N8N, Redis (RedisStack/RedisInsight), Postgres (pgvector/pgAdmin), Dify, Browserless
- Anforderung: Prefill-Agent soll eingehende Nachrichten mit Kontext/Memories anreichern, bevor Hauptagent sie erhält
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Nutzer sucht Open-Source-Harness für Multi-Agent-Setup mit Qwen 27B lokal
Der Reddit-Nutzer GrungeWerX beschreibt eine Woche frustrierter Eigenentwicklung an einem Multi-Agent-System rund um seinen lokalen Agenten „Cass" (Qwen 3.6 27B UD K XL, Q4/Q5) auf Windows 10 mit RTX 3090 TI und 96 GB RAM. Als LLM-Server nutzt er LM Studio, ergänzt durch Docker-Dienste wie N8N, Redis mit RedisStack, Postgres mit pgvector und Dify. Das Kernproblem: Der Kontextspeicher läuft durch MCP-Tool-Nutzung schnell voll – der Wechsel auf Q4 KV ermöglicht immerhin bis zu 200K Token. Ein selbst geschriebener Agent-Spawner funktioniert prinzipiell, bietet jedoch kein Live-Monitoring der Sub-Agenten-Streams. Gesucht wird ein Harness mit einfachem GUI (auch Terminal-basiert akzeptabel), Anzeige von Kontext- und Max-Kontextgröße, Sub-Agent-Management mit individuellen System-Prompts und MCP-Tool-Zuweisung, einem Dashboard für parallele Agenten-Outputs sowie einer konfigurierbaren Prefill-Pipeline für kleinere Agenten. Cloud-Modelle werden ausdrücklich ausgeschlossen. Genannte, aber als unpassend eingestufte Alternativen: pi agent.
- Stack: Windows 10, i7-12700K, RTX 3090 TI, 96 GB RAM – Server: LM Studio
- Modelle: Qwen 3.5/3.6 27B UD K XL (Q4/Q5) + 0.8B/4B parallel auf CPU
- Kontextproblem gelöst via Q4 KV-Cache auf bis zu 200K Token, aber Sub-Agent-Sichtbarkeit fehlt
- Docker-Infrastruktur: N8N, Redis (RedisStack/RedisInsight), Postgres (pgvector/pgAdmin), Dify, Browserless
- Anforderung: Prefill-Agent soll eingehende Nachrichten mit Kontext/Memories anreichern, bevor Hauptagent sie erhält
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.