Prompt-Variationen führen zu teils gegensätzlichen Ergebnissen bei Qwen und Gemma

Warum es zählt

Die Beobachtung zeigt, dass es bei LLM-Evaluierung nicht nur um „gute" oder „schlechte" Prompts geht, sondern dass ähnliche Modelle (Qwen 3.5 vs. 3.6) völlig unterschiedliche Prompting-Strategien benötigen – ein kritisches Insight für praktische Anwendung und faire Modellvergleiche.

— Lumeric Redaktion

Der Autor führte einen systematischen Test mit zwei Varianten einer Worträtsel-Aufgabe durch – eine kurze Fassung mit reiner Mathematik und eine längere mit ausführlichem narrativem Kontext – und verglich Ergebnisse über je 10 Durchläufe pro Modell. Die erwartete Antwort lautet 300 Dollar. Bei der kurzen Version antwortet Qwen 3.6 konsistent korrekt, während Qwen 3.5 und Gemma 4 häufig 150 annehmen (falsche Annahme: $5 pro Box). Überraschend performt Qwen 3.6 bei der längeren narrativen Version deutlich schlechter und gibt häufig 150 oder 50 Dollar an, während Gemma 4 die erweiterte Geschichte bevorzugt und das Szenario als Geschäftsproblem mit unterschiedlichen Kauf- und Verkaufspreisen interpretiert. Auch die Quantisierung spielt eine Rolle: IQ2-Modelle überraschten teilweise positiv. Der Post unterstreicht, dass Modelle nicht universal auf Prompts reagieren und dass selbst ähnliche Architekturen erhebliche Unterschiede im Prompting-Bedarf aufweisen.

Was wir noch wissen

Qwen 3.6 braucht kurze, direkte Prompts – bei langer Narration sinkt die Akkuratheit massiv
Gemma 4 profitiert von kontextreicheren Prompts und interpretiert das Problem eher wirtschaftlich als mathematisch
IQ2-Quantisierung war überraschend effektiv, widerlegt das Vorurteil "IQ2 dumb"
Häufigstes Fehlermuster: $5-pro-Box-Annahme führt zu falscher Antwort 150 statt 300
Vergleichsdaten offen zugänglich auf evaluateai.ai – vom Autor selbst entwickelte Eval-Plattform

Quelle lesenreddit.com

Evals Benchmarks Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Prompt-Variationen führen zu teils gegensätzlichen Ergebnissen bei Qwen und Gemma

ToolsClaude Qwen

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Qwen 3.6 braucht kurze, direkte Prompts – bei langer Narration sinkt die Akkuratheit massiv
Gemma 4 profitiert von kontextreicheren Prompts und interpretiert das Problem eher wirtschaftlich als mathematisch
IQ2-Quantisierung war überraschend effektiv, widerlegt das Vorurteil "IQ2 dumb"
Häufigstes Fehlermuster: $5-pro-Box-Annahme führt zu falscher Antwort 150 statt 300
Vergleichsdaten offen zugänglich auf evaluateai.ai – vom Autor selbst entwickelte Eval-Plattform

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Prompt-Variationen führen zu teils gegensätzlichen Ergebnissen bei Qwen und Gemma

Frag die KI zum Artikel

Verwandte Beiträge

Prompt-Variationen führen zu teils gegensätzlichen Ergebnissen bei Qwen und Gemma

Frag die KI zum Artikel

Verwandte Beiträge