Qwen3-27B im Harness-Vergleich: Opencode schlägt GitHub Copilot deutlich

ToolsClaude Claude Code Qwen GitHub Copilot

Warum es zählt

Für AI-Builder zeigt der Vergleich, dass Tool-Schema-Design und Harness-Architektur die Modellleistung massiv beeinflussen – GitHub Copilot benötigt mit demselben Modell 13 LLM-Anfragen für eine SVG-Datei, Claude Code und Opencode nur 4. Die Wahl des Frameworks ist damit genauso wichtig wie die Modellwahl.

— Lumeric Redaktion

Der Reddit-Nutzer sdfgeoff hat ein eigenes Test-Setup entwickelt, um denselben Task mit verschiedenen Agentenframeworks auf Basis desselben Sprachmodells (Qwen3-27B) zu evaluieren. Getestet wurden GitHub Copilot, Pi, Claude Code und Opencode. Ein zentrales Ergebnis: Für die Erstellung einer einfachen pelican.svg-Datei benötigt GitHub Copilot 13 LLM-Anfragen, während Claude Code, Pi und Opencode mit je 4 Anfragen auskommen. Der Autor führt das auf problematisches Tool-Schema-Design bei Copilot zurück – das Modell wechselt wiederholt zwischen Edit-Tool und Bash, ohne voranzukommen. Opencode punktet zusätzlich durch eine standardmäßige Internetsuche, die bei inhaltsreichen Aufgaben wie einem 3D-Drucker-Erklärartikel präzise Ergebnisse (z. B. Filamenttemperaturen) lieferte. Auch bei Webentwicklungsaufgaben erzielte Opencode laut Tester die besten Resultate mit interaktiven Widgets. Qwen3-VL-4 hingegen lief in Opencode in einer Endlosschleife und konnte die SVG-Datei gar nicht schreiben. Eine automatisierte, metrische Evaluation ist laut Autor noch in Arbeit.

Was wir noch wissen

Qwen3-27B benötigt mit GitHub Copilot 13 LLM-Anfragen für pelican.svg, mit Claude Code/Pi/Opencode nur 4.
Opencode hat standardmäßig Internetzugang, was die Ergebnisse bei faktenschweren Aufgaben verbessert.
Qwen3-VL-4 lief in Opencode in einer Endlosschleife und scheiterte komplett an der SVG-Erstellung.
Bei Webdev-Tasks lieferte Opencode interaktive Widgets mit guter Funktionalität.
Metrische/automatisierte Evaluation ist noch nicht implementiert – aktuell nur subjektive Einschätzung.

Quelle lesenreddit.com

Coding Assistenten Agents Evals Benchmarks

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3-27B im Harness-Vergleich: Opencode schlägt GitHub Copilot deutlich

ToolsClaude Claude Code Qwen GitHub Copilot

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Qwen3-27B benötigt mit GitHub Copilot 13 LLM-Anfragen für pelican.svg, mit Claude Code/Pi/Opencode nur 4.
Opencode hat standardmäßig Internetzugang, was die Ergebnisse bei faktenschweren Aufgaben verbessert.
Qwen3-VL-4 lief in Opencode in einer Endlosschleife und scheiterte komplett an der SVG-Erstellung.
Bei Webdev-Tasks lieferte Opencode interaktive Widgets mit guter Funktionalität.
Metrische/automatisierte Evaluation ist noch nicht implementiert – aktuell nur subjektive Einschätzung.

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3-27B im Harness-Vergleich: Opencode schlägt GitHub Copilot deutlich

Frag die KI zum Artikel

Verwandte Beiträge

Qwen3-27B im Harness-Vergleich: Opencode schlägt GitHub Copilot deutlich

Frag die KI zum Artikel

Verwandte Beiträge