Qwen3.6-35B-A3B übertrifft Gemini 2.5 Pro auf Terminal-Bench 2.0

Warum es zählt

Ein 35B-MoE-Modell schlägt deutlich größere Modelle auf einem harten agentischen Benchmark – das unterstreicht, dass effiziente Open-Source-Modelle im Coding-Agenten-Bereich wettbewerbsfähig werden. Selbst sub-10B-Modelle sind auf Terminal-Bench 2.0 nun messbar.

— Lumeric Redaktion

Auf dem öffentlichen Terminal-Bench 2.0 Leaderboard wurden nun die Ergebnisse für Qwen3.6-35B-A3B und Qwen3.5-9B veröffentlicht. Das MoE-Modell Qwen3.6-35B-A3B landet mit 24,6 % (±3,2 Prozentpunkte) im Scaffold „little-coder" über Gemini 2.5 Pro on Gemini CLI (19,6 %) und auch über dem deutlich größeren Qwen3-Coder-480B on Terminus 2 (23,9 %). Der Benchmark gilt als besonders anspruchsvoll für agentische Coding-Szenarien im Terminal-Umfeld. Bemerkenswert ist, dass der Scaffold-Modell-Gap aus dem Polyglot-Setting laut dem Autor auch hier stabil bleibt. Das kleinere Qwen3.5-9B erreicht 9,2 % – bescheiden, aber ein Zeichen, dass sub-10B-Lokalmodelle auf diesem harten Benchmark erstmals konsistent messbare Werte liefern. Der Post stammt aus der r/LocalLLaMA-Community, die den Anstoß für diese Evaluierungsläufe gegeben hatte.

Quelle lesenreddit.com

Terminal-Bench 2.0 · Spitzenwert

24.6%

Qwen3.6-35B-A3B

Evals Benchmarks Open Source Coding Assistenten

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6-35B-A3B übertrifft Gemini 2.5 Pro auf Terminal-Bench 2.0

ToolsGemini Qwen

Warum es zählt

— Lumeric Redaktion

Terminal-Bench 2.0 · Spitzenwert

24.6%

Qwen3.6-35B-A3B

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6-35B-A3B übertrifft Gemini 2.5 Pro auf Terminal-Bench 2.0

Frag die KI zum Artikel

Verwandte Beiträge

Qwen3.6-35B-A3B übertrifft Gemini 2.5 Pro auf Terminal-Bench 2.0

Frag die KI zum Artikel

Verwandte Beiträge