Qwen 3.6 27B F16 besteht Pacman-Benchmark als erster lokaler Coding-Agent
Der Reddit-Nutzer entwickelte einen informellen, aber reproduzierbaren Coding-Benchmark: Modelle sollen per Single-Prompt einen vollständig spielbaren Pac-Man-Klon als einzelne Webseite generieren. Drei Versuche pro Modell, bestes Ergebnis zählt. Bisher scheiterten alle getesteten Modelle – darunter Produkte von Anthropic, OpenAI und Google – teils kläglich. GLM 5.1 hielt bisher die Spitze. Mit Qwen 3.6 27B im F16-Format gelangen zwei von drei Versuchen mit nur minimalen Fehlern. Bei 8-Bit-Quantisierung war das Ergebnis selbst nach fünf weiteren Versuchen nicht reproduzierbar, was der Autor als Beleg für den oft unterschätzten Qualitätsverlust durch Quantisierung wertet. Parallel testete er den noch nicht gemergten MTP Speculative Decoding PR in llama.cpp: Der Durchsatz stieg je nach Aufgabe von 6,6 tok/s (ohne MTP) auf 8–18 tok/s. Ein zentrales Ergebnis ist außerdem, dass das offizielle Qwen-Chat-Template auf andere Tools als vLLM nicht ausgelegt war und durch eigene Korrekturen erheblich verbessert werden musste. Als Coding-Harness empfahl sich Qwen CLI gegenüber Claude Code als schneller und für diesen Use-Case praktikabler. Das fertige Spiel ist unter guigand.com/pacman abrufbar.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Qwen 3.6 27B F16 besteht Pacman-Benchmark als erster lokaler Coding-Agent
Der Reddit-Nutzer entwickelte einen informellen, aber reproduzierbaren Coding-Benchmark: Modelle sollen per Single-Prompt einen vollständig spielbaren Pac-Man-Klon als einzelne Webseite generieren. Drei Versuche pro Modell, bestes Ergebnis zählt. Bisher scheiterten alle getesteten Modelle – darunter Produkte von Anthropic, OpenAI und Google – teils kläglich. GLM 5.1 hielt bisher die Spitze. Mit Qwen 3.6 27B im F16-Format gelangen zwei von drei Versuchen mit nur minimalen Fehlern. Bei 8-Bit-Quantisierung war das Ergebnis selbst nach fünf weiteren Versuchen nicht reproduzierbar, was der Autor als Beleg für den oft unterschätzten Qualitätsverlust durch Quantisierung wertet. Parallel testete er den noch nicht gemergten MTP Speculative Decoding PR in llama.cpp: Der Durchsatz stieg je nach Aufgabe von 6,6 tok/s (ohne MTP) auf 8–18 tok/s. Ein zentrales Ergebnis ist außerdem, dass das offizielle Qwen-Chat-Template auf andere Tools als vLLM nicht ausgelegt war und durch eigene Korrekturen erheblich verbessert werden musste. Als Coding-Harness empfahl sich Qwen CLI gegenüber Claude Code als schneller und für diesen Use-Case praktikabler. Das fertige Spiel ist unter guigand.com/pacman abrufbar.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.