LeanLoop: Lokale LLMs mit Cloud-Modellen im Wechsel für günstigeres Coding

Warum es zählt

Wer hohe Cloud-API-Kosten senken will, kann mit LeanLoop kleinteilige Coding-Tasks lokal ausführen und Fehler durch automatische Test-Feedback-Schleifen korrigieren lassen – ohne komplexes Agenten-Framework selbst bauen zu müssen.

— Lumeric Redaktion

LeanLoop stammt von Reddit-Nutzer /u/DiscipleofDeceit666 und adressiert ein praktisches Problem: Lokale LLMs sind günstig, aber unzuverlässig – Cloud-Modelle sind zuverlässig, aber teuer. Der Ansatz: Claude (oder ein anderes starkes Cloud-Modell) übernimmt die Planung und erzeugt ein sogenanntes „Leanfile" mit kleinteiligen, klar abgegrenzten Aufgaben. Diese Tasks führt dann ein lokales Modell – konkret Qwen3.6 35B A3B mit 32k Kontext – schrittweise aus. Nach jedem Task werden automatisch Unit-Tests ausgeführt; schlagen sie fehl, wird das Ergebnis zurück in das lokale Modell geschleift, das seinen eigenen Fehler korrigiert. Die Integration bestehender CLI-Tools wie aider oder qwencodeCLI erfolgt über einfache 5-Zeilen-Bash-Skripte im Ordner ./leaner/, die lediglich einen -p-Parameter und File-Write-Unterstützung voraussetzen. Der Autor betreibt das Setup auf einem Dual-RDNA2-System (RX 6800 + RX 6700 XT) und erreicht 60–70 Token/s. Geplant ist außerdem ein Multi-Threading-Modus, bei dem mehrere lokale oder Cloud-Modelle parallel Tasks abarbeiten. Pull Requests für weitere Leaner-Skripte sind ausdrücklich erwünscht.

Was wir noch wissen

Lokales Modell: Qwen3.6-35B-A3B-UD-Q4_K_M.gguf mit 32k Kontext, läuft via llama-server
Dual-GPU-Setup: RX 6800 + RX 6700 XT (RDNA2), 60–70 tok/s je nach Kontextlänge
Integration über ./leaner/-Skripte: kompatibel mit aider, qwencodeCLI und anderen CLI-Tools mit -p-Flag
Unit-Test-Feedback-Loop: Fehler werden automatisch ans lokale Modell zurückgegeben zur Selbstkorrektur
Multi-Threaded-Parallelverarbeitung mit mehreren Modellen ist in Planung

Quelle lesenreddit.com

Agents Open Source Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

LeanLoop: Lokale LLMs mit Cloud-Modellen im Wechsel für günstigeres Coding

ToolsClaude Qwen Aider Llama

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Lokales Modell: Qwen3.6-35B-A3B-UD-Q4_K_M.gguf mit 32k Kontext, läuft via llama-server
Dual-GPU-Setup: RX 6800 + RX 6700 XT (RDNA2), 60–70 tok/s je nach Kontextlänge
Integration über ./leaner/-Skripte: kompatibel mit aider, qwencodeCLI und anderen CLI-Tools mit -p-Flag
Unit-Test-Feedback-Loop: Fehler werden automatisch ans lokale Modell zurückgegeben zur Selbstkorrektur
Multi-Threaded-Parallelverarbeitung mit mehreren Modellen ist in Planung

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

LeanLoop: Lokale LLMs mit Cloud-Modellen im Wechsel für günstigeres Coding

Frag die KI zum Artikel

Verwandte Beiträge

LeanLoop: Lokale LLMs mit Cloud-Modellen im Wechsel für günstigeres Coding

Frag die KI zum Artikel

Verwandte Beiträge