Backend-Generierung: Local LLMs schließen zur Frontier auf
Das Projekt AutoBe hat einen kontrollierten Benchmark für Backend-Code-Generierung entwickelt, der lokale und Frontier-Modelle auf ihre Fähigkeit testet, komplexe recursive-union AST-Schemas über Function Calling zu füllen. Kernfund: Qwen3.5-35B-A3B erreicht gleichwertige DB/API-Design-Scores wie GPT-5.4, Qwen3.5-27B liegt auf Claude-Sonnet-4.6-Niveau. Unerwartet schneiden Dense-27B-Varianten besser ab als MoE-Familienmitglieder bis 397B. Das Projekt berichtet überraschende Inversionen (GPT-5.4 unter eigenem Mini-Modell, DeepSeek-V4-Pro knapp über Flash), führt diese möglicherweise auf CoT-Compliance-Phänomene oder Benchmark-Defekte zurück und will diese Anomalien in kommenden Runden untersuchen. Das letzte Frontier-Modell-Vergleich dieses Monats war notwendig wegen unrentabler Kosten (~$1,000–$1,500 pro Modell); künftig werden nur noch OpenRouter-Endpoints unter $0.25/M oder Modelle unter 64GB Speicher getestet.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Backend-Generierung: Local LLMs schließen zur Frontier auf
Das Projekt AutoBe hat einen kontrollierten Benchmark für Backend-Code-Generierung entwickelt, der lokale und Frontier-Modelle auf ihre Fähigkeit testet, komplexe recursive-union AST-Schemas über Function Calling zu füllen. Kernfund: Qwen3.5-35B-A3B erreicht gleichwertige DB/API-Design-Scores wie GPT-5.4, Qwen3.5-27B liegt auf Claude-Sonnet-4.6-Niveau. Unerwartet schneiden Dense-27B-Varianten besser ab als MoE-Familienmitglieder bis 397B. Das Projekt berichtet überraschende Inversionen (GPT-5.4 unter eigenem Mini-Modell, DeepSeek-V4-Pro knapp über Flash), führt diese möglicherweise auf CoT-Compliance-Phänomene oder Benchmark-Defekte zurück und will diese Anomalien in kommenden Runden untersuchen. Das letzte Frontier-Modell-Vergleich dieses Monats war notwendig wegen unrentabler Kosten (~$1,000–$1,500 pro Modell); künftig werden nur noch OpenRouter-Endpoints unter $0.25/M oder Modelle unter 64GB Speicher getestet.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.