SmallCode: Coding-Agent für lokale 4B-Modelle erreicht 87 % auf Benchmarks
SmallCode wurde als direkte Reaktion auf die Schwäche bestehender Coding-Agenten wie OpenCode, Cursor und Claude Code mit kleinen lokalen Modellen entwickelt. Der Autor, Reddit-Nutzer /u/Glittering_Focus1538, kritisiert, dass diese Tools de facto GPT-5.4- oder Claude-Opus-Modelle voraussetzen und mit lokalen Modellen wie Gemma oder Qwen durch fehlschlagende Tool-Calls, Kontext-Overflows und kollabierendes Multi-Step-Reasoning versagen. SmallCode löst dies durch mehrere architektonische Tricks: Compound-Tools bündeln bis zu vier Tool-Calls in einen einzigen Aufruf, da kleine Modelle nach drei aufeinanderfolgenden Calls an Kohärenz verlieren. Eine Improvement-Loop kompiliert und lintet generierten Code sofort und speist Fehler automatisch zurück. Bei wiederholtem Scheitern zerlegt der Agent das Problem in kleinere Teilaufgaben. Als letzter Ausweg eskaliert SmallCode optional zu einem Cloud-Modell – laut Autor trifft das nur etwa 5 % der Fälle. Ein Code-Graph indexiert die gesamte Codebasis als Symbolnetz, statt per grep zu suchen. Das Tool ist via npm installierbar, MIT-lizenziert und unterstützt LM Studio, Ollama sowie jeden OpenAI-kompatiblen Endpunkt. OpenCode erreicht mit 14B-Modellen laut Autor nur ~75 % auf demselben Benchmark.
- SmallCode schlägt OpenCode (~75 % mit 14B-Modellen) mit einem Gemma-4B-Modell (87/100 Tasks)
- Compound-Tools fassen bis zu 4 Einzelschritte zusammen und halbieren laut Autor die Fehlerrate
- Token-Budgeting hält Kontext innerhalb des 32k–256k-Fensters kleiner Modelle durch Zusammenfassung und Trunkierung
- Code-Graph-Index (Funktionen, Klassen, Call-Graph) ersetzt Grep-Suche für präzisere Kontextauswahl
- Installation per npm install -g smallcode; MIT-lizenziert auf GitHub verfügbar
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org1w
FormulaCode: Neuer Benchmark für agentische Codebase-Optimierung
- FORSCHUNGarxiv.org3w
Terminus-4B: 4B-Modell ersetzt Frontier-LLMs bei Agentic Terminal Tasks
- FORSCHUNGarxiv.org1w
SkillSmith: Compiler-Framework reduziert Token-Verbrauch von LLM-Agenten um 57 %
- MEINUNGreddit.com3d
Warum Small-Model-Agent-Stacks trotz klarer Kostenvorteile nicht Standard sind
SmallCode: Coding-Agent für lokale 4B-Modelle erreicht 87 % auf Benchmarks
SmallCode wurde als direkte Reaktion auf die Schwäche bestehender Coding-Agenten wie OpenCode, Cursor und Claude Code mit kleinen lokalen Modellen entwickelt. Der Autor, Reddit-Nutzer /u/Glittering_Focus1538, kritisiert, dass diese Tools de facto GPT-5.4- oder Claude-Opus-Modelle voraussetzen und mit lokalen Modellen wie Gemma oder Qwen durch fehlschlagende Tool-Calls, Kontext-Overflows und kollabierendes Multi-Step-Reasoning versagen. SmallCode löst dies durch mehrere architektonische Tricks: Compound-Tools bündeln bis zu vier Tool-Calls in einen einzigen Aufruf, da kleine Modelle nach drei aufeinanderfolgenden Calls an Kohärenz verlieren. Eine Improvement-Loop kompiliert und lintet generierten Code sofort und speist Fehler automatisch zurück. Bei wiederholtem Scheitern zerlegt der Agent das Problem in kleinere Teilaufgaben. Als letzter Ausweg eskaliert SmallCode optional zu einem Cloud-Modell – laut Autor trifft das nur etwa 5 % der Fälle. Ein Code-Graph indexiert die gesamte Codebasis als Symbolnetz, statt per grep zu suchen. Das Tool ist via npm installierbar, MIT-lizenziert und unterstützt LM Studio, Ollama sowie jeden OpenAI-kompatiblen Endpunkt. OpenCode erreicht mit 14B-Modellen laut Autor nur ~75 % auf demselben Benchmark.
- SmallCode schlägt OpenCode (~75 % mit 14B-Modellen) mit einem Gemma-4B-Modell (87/100 Tasks)
- Compound-Tools fassen bis zu 4 Einzelschritte zusammen und halbieren laut Autor die Fehlerrate
- Token-Budgeting hält Kontext innerhalb des 32k–256k-Fensters kleiner Modelle durch Zusammenfassung und Trunkierung
- Code-Graph-Index (Funktionen, Klassen, Call-Graph) ersetzt Grep-Suche für präzisere Kontextauswahl
- Installation per npm install -g smallcode; MIT-lizenziert auf GitHub verfügbar
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org1w
FormulaCode: Neuer Benchmark für agentische Codebase-Optimierung
- FORSCHUNGarxiv.org3w
Terminus-4B: 4B-Modell ersetzt Frontier-LLMs bei Agentic Terminal Tasks
- FORSCHUNGarxiv.org1w
SkillSmith: Compiler-Framework reduziert Token-Verbrauch von LLM-Agenten um 57 %
- MEINUNGreddit.com3d
Warum Small-Model-Agent-Stacks trotz klarer Kostenvorteile nicht Standard sind