Qwen 3.6 vs. Gemma 4: Praxistest enthüllt Benchmark-Gaming bei Vision-Modellen
Ein Reddit-Nutzer aus r/LocalLLaMA testete Qwen 3.6 (31B) und Gemma 4 (27B) über mehrere Wochen lokal auf vLLM mit FP8-Quantisierung anhand von Community-vorgeschlagenen, schwierigen Vision-Aufgaben. Das Fazit: Offizielle Benchmarks spiegeln die Realität nicht wider – Gemma 4 gewinnt in der Praxis in vielen Kategorien. Konkret folgt Gemma 4 Formatierungsanweisungen für Bounding Boxes und normalisierte Koordinaten (0–1) zuverlässig und gibt sauberes JSON aus, während Qwen 3.6 die Skalierungsanweisung ignoriert. Bei Token-Effizienz ist Gemma 4 deutlich sparsamer (ca. 1.500 Tokens vs. bis zu 8.000+ bei Qwen auf schwierigen Tasks). Kulturelle Stärken sind klar aufgeteilt: Qwen 3.6 dominiert bei asiatischem Kontext (chinesische Memes, südostasiatische GeoGuessr-Spots), Gemma 4 bei europäisch-westlichem Material. Im Video-Tracking liegt Qwen 3.6 vorn – es zählte Wiederholungen im Kraftsport präziser und schätzte Gewichte genauer. Ein praktischer Hinweis: Bei Gemma 4 setzen vLLM und llama.cpp den max_soft_tokens-Wert standardmäßig auf nur 280, was OCR und Detailgenauigkeit massiv verschlechtert; das Erhöhen auf 1120+ verbessert die Ergebnisse ohne spürbare Latenz-Einbuße. Für automatisierte Video-Pipelines ist Gemma 4 flexibler, da Qwen 3.6 zwingend 2-FPS-vorverarbeitete Eingaben erfordert.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Qwen 3.6 vs. Gemma 4: Praxistest enthüllt Benchmark-Gaming bei Vision-Modellen
Ein Reddit-Nutzer aus r/LocalLLaMA testete Qwen 3.6 (31B) und Gemma 4 (27B) über mehrere Wochen lokal auf vLLM mit FP8-Quantisierung anhand von Community-vorgeschlagenen, schwierigen Vision-Aufgaben. Das Fazit: Offizielle Benchmarks spiegeln die Realität nicht wider – Gemma 4 gewinnt in der Praxis in vielen Kategorien. Konkret folgt Gemma 4 Formatierungsanweisungen für Bounding Boxes und normalisierte Koordinaten (0–1) zuverlässig und gibt sauberes JSON aus, während Qwen 3.6 die Skalierungsanweisung ignoriert. Bei Token-Effizienz ist Gemma 4 deutlich sparsamer (ca. 1.500 Tokens vs. bis zu 8.000+ bei Qwen auf schwierigen Tasks). Kulturelle Stärken sind klar aufgeteilt: Qwen 3.6 dominiert bei asiatischem Kontext (chinesische Memes, südostasiatische GeoGuessr-Spots), Gemma 4 bei europäisch-westlichem Material. Im Video-Tracking liegt Qwen 3.6 vorn – es zählte Wiederholungen im Kraftsport präziser und schätzte Gewichte genauer. Ein praktischer Hinweis: Bei Gemma 4 setzen vLLM und llama.cpp den max_soft_tokens-Wert standardmäßig auf nur 280, was OCR und Detailgenauigkeit massiv verschlechtert; das Erhöhen auf 1120+ verbessert die Ergebnisse ohne spürbare Latenz-Einbuße. Für automatisierte Video-Pipelines ist Gemma 4 flexibler, da Qwen 3.6 zwingend 2-FPS-vorverarbeitete Eingaben erfordert.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.