Qwen3-27B im Harness-Vergleich: Opencode schlägt GitHub Copilot deutlich
Der Reddit-Nutzer sdfgeoff hat ein eigenes Test-Setup entwickelt, um denselben Task mit verschiedenen Agentenframeworks auf Basis desselben Sprachmodells (Qwen3-27B) zu evaluieren. Getestet wurden GitHub Copilot, Pi, Claude Code und Opencode. Ein zentrales Ergebnis: Für die Erstellung einer einfachen pelican.svg-Datei benötigt GitHub Copilot 13 LLM-Anfragen, während Claude Code, Pi und Opencode mit je 4 Anfragen auskommen. Der Autor führt das auf problematisches Tool-Schema-Design bei Copilot zurück – das Modell wechselt wiederholt zwischen Edit-Tool und Bash, ohne voranzukommen. Opencode punktet zusätzlich durch eine standardmäßige Internetsuche, die bei inhaltsreichen Aufgaben wie einem 3D-Drucker-Erklärartikel präzise Ergebnisse (z. B. Filamenttemperaturen) lieferte. Auch bei Webentwicklungsaufgaben erzielte Opencode laut Tester die besten Resultate mit interaktiven Widgets. Qwen3-VL-4 hingegen lief in Opencode in einer Endlosschleife und konnte die SVG-Datei gar nicht schreiben. Eine automatisierte, metrische Evaluation ist laut Autor noch in Arbeit.
- Qwen3-27B benötigt mit GitHub Copilot 13 LLM-Anfragen für pelican.svg, mit Claude Code/Pi/Opencode nur 4.
- Opencode hat standardmäßig Internetzugang, was die Ergebnisse bei faktenschweren Aufgaben verbessert.
- Qwen3-VL-4 lief in Opencode in einer Endlosschleife und scheiterte komplett an der SVG-Erstellung.
- Bei Webdev-Tasks lieferte Opencode interaktive Widgets mit guter Funktionalität.
- Metrische/automatisierte Evaluation ist noch nicht implementiert – aktuell nur subjektive Einschätzung.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Qwen3-27B im Harness-Vergleich: Opencode schlägt GitHub Copilot deutlich
Der Reddit-Nutzer sdfgeoff hat ein eigenes Test-Setup entwickelt, um denselben Task mit verschiedenen Agentenframeworks auf Basis desselben Sprachmodells (Qwen3-27B) zu evaluieren. Getestet wurden GitHub Copilot, Pi, Claude Code und Opencode. Ein zentrales Ergebnis: Für die Erstellung einer einfachen pelican.svg-Datei benötigt GitHub Copilot 13 LLM-Anfragen, während Claude Code, Pi und Opencode mit je 4 Anfragen auskommen. Der Autor führt das auf problematisches Tool-Schema-Design bei Copilot zurück – das Modell wechselt wiederholt zwischen Edit-Tool und Bash, ohne voranzukommen. Opencode punktet zusätzlich durch eine standardmäßige Internetsuche, die bei inhaltsreichen Aufgaben wie einem 3D-Drucker-Erklärartikel präzise Ergebnisse (z. B. Filamenttemperaturen) lieferte. Auch bei Webentwicklungsaufgaben erzielte Opencode laut Tester die besten Resultate mit interaktiven Widgets. Qwen3-VL-4 hingegen lief in Opencode in einer Endlosschleife und konnte die SVG-Datei gar nicht schreiben. Eine automatisierte, metrische Evaluation ist laut Autor noch in Arbeit.
- Qwen3-27B benötigt mit GitHub Copilot 13 LLM-Anfragen für pelican.svg, mit Claude Code/Pi/Opencode nur 4.
- Opencode hat standardmäßig Internetzugang, was die Ergebnisse bei faktenschweren Aufgaben verbessert.
- Qwen3-VL-4 lief in Opencode in einer Endlosschleife und scheiterte komplett an der SVG-Erstellung.
- Bei Webdev-Tasks lieferte Opencode interaktive Widgets mit guter Funktionalität.
- Metrische/automatisierte Evaluation ist noch nicht implementiert – aktuell nur subjektive Einschätzung.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.