LeanLoop: Lokale LLMs mit Cloud-Modellen im Wechsel für günstigeres Coding
LeanLoop stammt von Reddit-Nutzer /u/DiscipleofDeceit666 und adressiert ein praktisches Problem: Lokale LLMs sind günstig, aber unzuverlässig – Cloud-Modelle sind zuverlässig, aber teuer. Der Ansatz: Claude (oder ein anderes starkes Cloud-Modell) übernimmt die Planung und erzeugt ein sogenanntes „Leanfile" mit kleinteiligen, klar abgegrenzten Aufgaben. Diese Tasks führt dann ein lokales Modell – konkret Qwen3.6 35B A3B mit 32k Kontext – schrittweise aus. Nach jedem Task werden automatisch Unit-Tests ausgeführt; schlagen sie fehl, wird das Ergebnis zurück in das lokale Modell geschleift, das seinen eigenen Fehler korrigiert. Die Integration bestehender CLI-Tools wie aider oder qwencodeCLI erfolgt über einfache 5-Zeilen-Bash-Skripte im Ordner ./leaner/, die lediglich einen -p-Parameter und File-Write-Unterstützung voraussetzen. Der Autor betreibt das Setup auf einem Dual-RDNA2-System (RX 6800 + RX 6700 XT) und erreicht 60–70 Token/s. Geplant ist außerdem ein Multi-Threading-Modus, bei dem mehrere lokale oder Cloud-Modelle parallel Tasks abarbeiten. Pull Requests für weitere Leaner-Skripte sind ausdrücklich erwünscht.
- Lokales Modell: Qwen3.6-35B-A3B-UD-Q4_K_M.gguf mit 32k Kontext, läuft via llama-server
- Dual-GPU-Setup: RX 6800 + RX 6700 XT (RDNA2), 60–70 tok/s je nach Kontextlänge
- Integration über ./leaner/-Skripte: kompatibel mit aider, qwencodeCLI und anderen CLI-Tools mit -p-Flag
- Unit-Test-Feedback-Loop: Fehler werden automatisch ans lokale Modell zurückgegeben zur Selbstkorrektur
- Multi-Threaded-Parallelverarbeitung mit mehreren Modellen ist in Planung
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com3w
Hybrid-Workflow: Claude Opus plant, lokales Qwen 3.6 27B führt aus
- MEINUNGreddit.com1w
Reddit-Diskussion: Kleines lokales Modell für automatische Code-Qualitätsprüfung
- LAUNCHreddit.com2w
ml-intern: HuggingFace-Agent-Harness jetzt mit llama.cpp und Ollama
- MEINUNGreddit.com2w
Reddit-Idee: Claude Code als Orchestrator mit lokalem LLM via Pi.dev
LeanLoop: Lokale LLMs mit Cloud-Modellen im Wechsel für günstigeres Coding
LeanLoop stammt von Reddit-Nutzer /u/DiscipleofDeceit666 und adressiert ein praktisches Problem: Lokale LLMs sind günstig, aber unzuverlässig – Cloud-Modelle sind zuverlässig, aber teuer. Der Ansatz: Claude (oder ein anderes starkes Cloud-Modell) übernimmt die Planung und erzeugt ein sogenanntes „Leanfile" mit kleinteiligen, klar abgegrenzten Aufgaben. Diese Tasks führt dann ein lokales Modell – konkret Qwen3.6 35B A3B mit 32k Kontext – schrittweise aus. Nach jedem Task werden automatisch Unit-Tests ausgeführt; schlagen sie fehl, wird das Ergebnis zurück in das lokale Modell geschleift, das seinen eigenen Fehler korrigiert. Die Integration bestehender CLI-Tools wie aider oder qwencodeCLI erfolgt über einfache 5-Zeilen-Bash-Skripte im Ordner ./leaner/, die lediglich einen -p-Parameter und File-Write-Unterstützung voraussetzen. Der Autor betreibt das Setup auf einem Dual-RDNA2-System (RX 6800 + RX 6700 XT) und erreicht 60–70 Token/s. Geplant ist außerdem ein Multi-Threading-Modus, bei dem mehrere lokale oder Cloud-Modelle parallel Tasks abarbeiten. Pull Requests für weitere Leaner-Skripte sind ausdrücklich erwünscht.
- Lokales Modell: Qwen3.6-35B-A3B-UD-Q4_K_M.gguf mit 32k Kontext, läuft via llama-server
- Dual-GPU-Setup: RX 6800 + RX 6700 XT (RDNA2), 60–70 tok/s je nach Kontextlänge
- Integration über ./leaner/-Skripte: kompatibel mit aider, qwencodeCLI und anderen CLI-Tools mit -p-Flag
- Unit-Test-Feedback-Loop: Fehler werden automatisch ans lokale Modell zurückgegeben zur Selbstkorrektur
- Multi-Threaded-Parallelverarbeitung mit mehreren Modellen ist in Planung
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com3w
Hybrid-Workflow: Claude Opus plant, lokales Qwen 3.6 27B führt aus
- MEINUNGreddit.com1w
Reddit-Diskussion: Kleines lokales Modell für automatische Code-Qualitätsprüfung
- LAUNCHreddit.com2w
ml-intern: HuggingFace-Agent-Harness jetzt mit llama.cpp und Ollama
- MEINUNGreddit.com2w
Reddit-Idee: Claude Code als Orchestrator mit lokalem LLM via Pi.dev