Qwen 3.6 vs. Gemma 4: Praxistest enthüllt Benchmark-Gaming bei Vision-Modellen

Warum es zählt

Wer Vision-Modelle lokal für Bounding Boxes, OCR oder Video-Pipelines einsetzt, sollte Gemma 4 bevorzugen – es folgt Formatierungsanweisungen besser und verbraucht deutlich weniger Tokens. Bei asiatischem Kontext oder Video-Tracking bleibt Qwen 3.6 die stärkere Wahl.

— Lumeric Redaktion

Ein Reddit-Nutzer aus r/LocalLLaMA testete Qwen 3.6 (31B) und Gemma 4 (27B) über mehrere Wochen lokal auf vLLM mit FP8-Quantisierung anhand von Community-vorgeschlagenen, schwierigen Vision-Aufgaben. Das Fazit: Offizielle Benchmarks spiegeln die Realität nicht wider – Gemma 4 gewinnt in der Praxis in vielen Kategorien. Konkret folgt Gemma 4 Formatierungsanweisungen für Bounding Boxes und normalisierte Koordinaten (0–1) zuverlässig und gibt sauberes JSON aus, während Qwen 3.6 die Skalierungsanweisung ignoriert. Bei Token-Effizienz ist Gemma 4 deutlich sparsamer (ca. 1.500 Tokens vs. bis zu 8.000+ bei Qwen auf schwierigen Tasks). Kulturelle Stärken sind klar aufgeteilt: Qwen 3.6 dominiert bei asiatischem Kontext (chinesische Memes, südostasiatische GeoGuessr-Spots), Gemma 4 bei europäisch-westlichem Material. Im Video-Tracking liegt Qwen 3.6 vorn – es zählte Wiederholungen im Kraftsport präziser und schätzte Gewichte genauer. Ein praktischer Hinweis: Bei Gemma 4 setzen vLLM und llama.cpp den max_soft_tokens-Wert standardmäßig auf nur 280, was OCR und Detailgenauigkeit massiv verschlechtert; das Erhöhen auf 1120+ verbessert die Ergebnisse ohne spürbare Latenz-Einbuße. Für automatisierte Video-Pipelines ist Gemma 4 flexibler, da Qwen 3.6 zwingend 2-FPS-vorverarbeitete Eingaben erfordert.

Quelle lesenreddit.com

Foundation Modelle Multimodal Evals Benchmarks

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen 3.6 vs. Gemma 4: Praxistest enthüllt Benchmark-Gaming bei Vision-Modellen

ToolsQwen Llama

Warum es zählt

— Lumeric Redaktion

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen 3.6 vs. Gemma 4: Praxistest enthüllt Benchmark-Gaming bei Vision-Modellen

Frag die KI zum Artikel

Verwandte Beiträge

Qwen 3.6 vs. Gemma 4: Praxistest enthüllt Benchmark-Gaming bei Vision-Modellen

Frag die KI zum Artikel

Verwandte Beiträge