Backend-Generierung: Local LLMs schließen zur Frontier auf

ToolsClaude GPT Qwen DeepSeek OpenRouter

Warum es zählt

Die Ergebnisse zeigen, dass lokale Open-Source-Modelle bei funktionsorientierter Backend-Generierung konkurrenzfähig sind — relevant für on-prem-Deployments und kostensensitive Anwendungen, besonders weil das Projekt künftig teure Frontier-Modelle ausblendet.

— Lumeric Redaktion

Das Projekt AutoBe hat einen kontrollierten Benchmark für Backend-Code-Generierung entwickelt, der lokale und Frontier-Modelle auf ihre Fähigkeit testet, komplexe recursive-union AST-Schemas über Function Calling zu füllen. Kernfund: Qwen3.5-35B-A3B erreicht gleichwertige DB/API-Design-Scores wie GPT-5.4, Qwen3.5-27B liegt auf Claude-Sonnet-4.6-Niveau. Unerwartet schneiden Dense-27B-Varianten besser ab als MoE-Familienmitglieder bis 397B. Das Projekt berichtet überraschende Inversionen (GPT-5.4 unter eigenem Mini-Modell, DeepSeek-V4-Pro knapp über Flash), führt diese möglicherweise auf CoT-Compliance-Phänomene oder Benchmark-Defekte zurück und will diese Anomalien in kommenden Runden untersuchen. Das letzte Frontier-Modell-Vergleich dieses Monats war notwendig wegen unrentabler Kosten (~$1,000–$1,500 pro Modell); künftig werden nur noch OpenRouter-Endpoints unter $0.25/M oder Modelle unter 64GB Speicher getestet.

Quelle lesenreddit.com

Backend-Generierung (Function Calling Harness) · Spitzenwert

85%

GPT-5.4

Open Source Evals Benchmarks Coding Assistenten