Qwen 3.6 27B F16 besteht Pacman-Benchmark als erster lokaler Coding-Agent

ToolsClaude Claude Code GPT Qwen Llama Replicate

CompaniesOpenAI Anthropic Google DeepMind

Warum es zählt

Der Beitrag zeigt, dass F16-Quantisierung gegenüber 8-Bit bei Qwen 3.6 27B einen messbaren Qualitätssprung bringt und ein gut abgestimmtes Jinja-Chat-Template entscheidend für agentische Workflows mit llama.cpp ist.

— Lumeric Redaktion

Der Reddit-Nutzer entwickelte einen informellen, aber reproduzierbaren Coding-Benchmark: Modelle sollen per Single-Prompt einen vollständig spielbaren Pac-Man-Klon als einzelne Webseite generieren. Drei Versuche pro Modell, bestes Ergebnis zählt. Bisher scheiterten alle getesteten Modelle – darunter Produkte von Anthropic, OpenAI und Google – teils kläglich. GLM 5.1 hielt bisher die Spitze. Mit Qwen 3.6 27B im F16-Format gelangen zwei von drei Versuchen mit nur minimalen Fehlern. Bei 8-Bit-Quantisierung war das Ergebnis selbst nach fünf weiteren Versuchen nicht reproduzierbar, was der Autor als Beleg für den oft unterschätzten Qualitätsverlust durch Quantisierung wertet. Parallel testete er den noch nicht gemergten MTP Speculative Decoding PR in llama.cpp: Der Durchsatz stieg je nach Aufgabe von 6,6 tok/s (ohne MTP) auf 8–18 tok/s. Ein zentrales Ergebnis ist außerdem, dass das offizielle Qwen-Chat-Template auf andere Tools als vLLM nicht ausgelegt war und durch eigene Korrekturen erheblich verbessert werden musste. Als Coding-Harness empfahl sich Qwen CLI gegenüber Claude Code als schneller und für diesen Use-Case praktikabler. Das fertige Spiel ist unter guigand.com/pacman abrufbar.

Quelle lesenreddit.com

Pacman Benchmark (One-Shot Webpage Clone) · Spitzenwert

Qwen 3.6 27B F16

Coding Assistenten Agents Open Source