Prompt-Variationen führen zu teils gegensätzlichen Ergebnissen bei Qwen und Gemma
Der Autor führte einen systematischen Test mit zwei Varianten einer Worträtsel-Aufgabe durch – eine kurze Fassung mit reiner Mathematik und eine längere mit ausführlichem narrativem Kontext – und verglich Ergebnisse über je 10 Durchläufe pro Modell. Die erwartete Antwort lautet 300 Dollar. Bei der kurzen Version antwortet Qwen 3.6 konsistent korrekt, während Qwen 3.5 und Gemma 4 häufig 150 annehmen (falsche Annahme: $5 pro Box). Überraschend performt Qwen 3.6 bei der längeren narrativen Version deutlich schlechter und gibt häufig 150 oder 50 Dollar an, während Gemma 4 die erweiterte Geschichte bevorzugt und das Szenario als Geschäftsproblem mit unterschiedlichen Kauf- und Verkaufspreisen interpretiert. Auch die Quantisierung spielt eine Rolle: IQ2-Modelle überraschten teilweise positiv. Der Post unterstreicht, dass Modelle nicht universal auf Prompts reagieren und dass selbst ähnliche Architekturen erhebliche Unterschiede im Prompting-Bedarf aufweisen.
- Qwen 3.6 braucht kurze, direkte Prompts – bei langer Narration sinkt die Akkuratheit massiv
- Gemma 4 profitiert von kontextreicheren Prompts und interpretiert das Problem eher wirtschaftlich als mathematisch
- IQ2-Quantisierung war überraschend effektiv, widerlegt das Vorurteil "IQ2 dumb"
- Häufigstes Fehlermuster: $5-pro-Box-Annahme führt zu falscher Antwort 150 statt 300
- Vergleichsdaten offen zugänglich auf evaluateai.ai – vom Autor selbst entwickelte Eval-Plattform
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org3w
Prompt-Optimierung verändert LLM-Ranking in Benchmarks erheblich
- FORSCHUNGarxiv.org1w
Checklisten-Prompts schlagen Rückfrage-Prompts in LLM-Qualitätsstudie
- FORSCHUNGarxiv.org3w
Multi-Variant-Audit zeigt: Single-Prompt-Benchmarks unterschätzen Zuverlässigkeitsprobleme bei Sprachmodellen
- FORSCHUNGarxiv.org3w
Prompting vs. Code-Ausführung: LLMs bei deterministischen Berechnungen im Test
Prompt-Variationen führen zu teils gegensätzlichen Ergebnissen bei Qwen und Gemma
Der Autor führte einen systematischen Test mit zwei Varianten einer Worträtsel-Aufgabe durch – eine kurze Fassung mit reiner Mathematik und eine längere mit ausführlichem narrativem Kontext – und verglich Ergebnisse über je 10 Durchläufe pro Modell. Die erwartete Antwort lautet 300 Dollar. Bei der kurzen Version antwortet Qwen 3.6 konsistent korrekt, während Qwen 3.5 und Gemma 4 häufig 150 annehmen (falsche Annahme: $5 pro Box). Überraschend performt Qwen 3.6 bei der längeren narrativen Version deutlich schlechter und gibt häufig 150 oder 50 Dollar an, während Gemma 4 die erweiterte Geschichte bevorzugt und das Szenario als Geschäftsproblem mit unterschiedlichen Kauf- und Verkaufspreisen interpretiert. Auch die Quantisierung spielt eine Rolle: IQ2-Modelle überraschten teilweise positiv. Der Post unterstreicht, dass Modelle nicht universal auf Prompts reagieren und dass selbst ähnliche Architekturen erhebliche Unterschiede im Prompting-Bedarf aufweisen.
- Qwen 3.6 braucht kurze, direkte Prompts – bei langer Narration sinkt die Akkuratheit massiv
- Gemma 4 profitiert von kontextreicheren Prompts und interpretiert das Problem eher wirtschaftlich als mathematisch
- IQ2-Quantisierung war überraschend effektiv, widerlegt das Vorurteil "IQ2 dumb"
- Häufigstes Fehlermuster: $5-pro-Box-Annahme führt zu falscher Antwort 150 statt 300
- Vergleichsdaten offen zugänglich auf evaluateai.ai – vom Autor selbst entwickelte Eval-Plattform
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org3w
Prompt-Optimierung verändert LLM-Ranking in Benchmarks erheblich
- FORSCHUNGarxiv.org1w
Checklisten-Prompts schlagen Rückfrage-Prompts in LLM-Qualitätsstudie
- FORSCHUNGarxiv.org3w
Multi-Variant-Audit zeigt: Single-Prompt-Benchmarks unterschätzen Zuverlässigkeitsprobleme bei Sprachmodellen
- FORSCHUNGarxiv.org3w
Prompting vs. Code-Ausführung: LLMs bei deterministischen Berechnungen im Test