Qwen3.6-35B-A3B übertrifft Gemini 2.5 Pro auf Terminal-Bench 2.0
Auf dem öffentlichen Terminal-Bench 2.0 Leaderboard wurden nun die Ergebnisse für Qwen3.6-35B-A3B und Qwen3.5-9B veröffentlicht. Das MoE-Modell Qwen3.6-35B-A3B landet mit 24,6 % (±3,2 Prozentpunkte) im Scaffold „little-coder" über Gemini 2.5 Pro on Gemini CLI (19,6 %) und auch über dem deutlich größeren Qwen3-Coder-480B on Terminus 2 (23,9 %). Der Benchmark gilt als besonders anspruchsvoll für agentische Coding-Szenarien im Terminal-Umfeld. Bemerkenswert ist, dass der Scaffold-Modell-Gap aus dem Polyglot-Setting laut dem Autor auch hier stabil bleibt. Das kleinere Qwen3.5-9B erreicht 9,2 % – bescheiden, aber ein Zeichen, dass sub-10B-Lokalmodelle auf diesem harten Benchmark erstmals konsistent messbare Werte liefern. Der Post stammt aus der r/LocalLLaMA-Community, die den Anstoß für diese Evaluierungsläufe gegeben hatte.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com0mo
Qwen 3.6 27B/35B verdrängen ältere 30B-Modelle bei lokalen Setups
- BENCHMARKreddit.com1d
Qwen3.5 4B als PI-Agent: SOTA auf TerminalBench in der 4B-Klasse
- MEINUNGreddit.com2w
Qwen 3.6 35B A3B überzeugt als bestes kleines lokales LLM im Praxistest
- MEINUNGreddit.com3w
Community-Debatte: Qwen3 35B schlägt 27B in Qualität und Geschwindigkeit
Qwen3.6-35B-A3B übertrifft Gemini 2.5 Pro auf Terminal-Bench 2.0
Auf dem öffentlichen Terminal-Bench 2.0 Leaderboard wurden nun die Ergebnisse für Qwen3.6-35B-A3B und Qwen3.5-9B veröffentlicht. Das MoE-Modell Qwen3.6-35B-A3B landet mit 24,6 % (±3,2 Prozentpunkte) im Scaffold „little-coder" über Gemini 2.5 Pro on Gemini CLI (19,6 %) und auch über dem deutlich größeren Qwen3-Coder-480B on Terminus 2 (23,9 %). Der Benchmark gilt als besonders anspruchsvoll für agentische Coding-Szenarien im Terminal-Umfeld. Bemerkenswert ist, dass der Scaffold-Modell-Gap aus dem Polyglot-Setting laut dem Autor auch hier stabil bleibt. Das kleinere Qwen3.5-9B erreicht 9,2 % – bescheiden, aber ein Zeichen, dass sub-10B-Lokalmodelle auf diesem harten Benchmark erstmals konsistent messbare Werte liefern. Der Post stammt aus der r/LocalLLaMA-Community, die den Anstoß für diese Evaluierungsläufe gegeben hatte.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com0mo
Qwen 3.6 27B/35B verdrängen ältere 30B-Modelle bei lokalen Setups
- BENCHMARKreddit.com1d
Qwen3.5 4B als PI-Agent: SOTA auf TerminalBench in der 4B-Klasse
- MEINUNGreddit.com2w
Qwen 3.6 35B A3B überzeugt als bestes kleines lokales LLM im Praxistest
- MEINUNGreddit.com3w
Community-Debatte: Qwen3 35B schlägt 27B in Qualität und Geschwindigkeit