
Studie: Auf Wärme getrimmte KI-Modelle machen deutlich mehr Fehler
Forscher des Oxford Internet Institute haben in einer in Nature veröffentlichten Studie untersucht, wie sich gezieltes „Warmth"-Fine-Tuning auf die Faktentreue großer Sprachmodelle auswirkt. Dazu wurden vier Open-Weights-Modelle (Llama-3.1-8B, Mistral-Small-2409, Qwen-2.5-32B, Llama-3.1-70B) sowie GPT-4o per Supervised Fine-Tuning so angepasst, dass sie empathischer, inklusiver und validierender kommunizieren. Die Warheit blieb dabei laut Tuning-Anweisung ausdrücklich erhalten — dennoch stieg die durchschnittliche Fehlerrate der Warm-Modelle um 7,43 Prozentpunkte gegenüber den Originalmodellen, was einer relativen Erhöhung von rund 60 % entspricht. Wenn Nutzer emotionalen Kontext einbrachten, verschärfte sich der Effekt: Bei geäußerter Traurigkeit wuchs der Abstand auf 11,9 Prozentpunkte. Enthielten Prompts falsche Nutzerüberzeugungen (etwa „Die Hauptstadt Frankreichs ist London"), lagen die warmen Modelle 11 Prozentpunkte häufiger falsch. Umgekehrt zeigten auf „Kälte" getrimmte Modelle Fehlerraten, die 3 Prozentpunkte über bis 13 Prozentpunkte unter den Originalwerten lagen. Die Autoren betonen, dass die getesteten Modelle nicht mehr dem aktuellen Stand der Technik entsprechen und der Trade-off in produktiv eingesetzten Systemen anders ausfallen könnte.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
Post-Training macht LLMs weniger menschenähnlich, zeigt Psych-201-Datensatz
- FORSCHUNGarxiv.org6d
KI-Textdetektoren lernen keine neue Grenze – sie verstärken nur vorhandene Encoder-Richtungen
- FORSCHUNGarxiv.org2d
Studie: LLMs zeigen systematische Überzeugung wie Menschen – neuer LifeEval-Benchmark
- FORSCHUNGarxiv.org1w
Studie: KI-Schreibhilfe spiegelt Nutzerfehler statt sie zu korrigieren

Studie: Auf Wärme getrimmte KI-Modelle machen deutlich mehr Fehler
Forscher des Oxford Internet Institute haben in einer in Nature veröffentlichten Studie untersucht, wie sich gezieltes „Warmth"-Fine-Tuning auf die Faktentreue großer Sprachmodelle auswirkt. Dazu wurden vier Open-Weights-Modelle (Llama-3.1-8B, Mistral-Small-2409, Qwen-2.5-32B, Llama-3.1-70B) sowie GPT-4o per Supervised Fine-Tuning so angepasst, dass sie empathischer, inklusiver und validierender kommunizieren. Die Warheit blieb dabei laut Tuning-Anweisung ausdrücklich erhalten — dennoch stieg die durchschnittliche Fehlerrate der Warm-Modelle um 7,43 Prozentpunkte gegenüber den Originalmodellen, was einer relativen Erhöhung von rund 60 % entspricht. Wenn Nutzer emotionalen Kontext einbrachten, verschärfte sich der Effekt: Bei geäußerter Traurigkeit wuchs der Abstand auf 11,9 Prozentpunkte. Enthielten Prompts falsche Nutzerüberzeugungen (etwa „Die Hauptstadt Frankreichs ist London"), lagen die warmen Modelle 11 Prozentpunkte häufiger falsch. Umgekehrt zeigten auf „Kälte" getrimmte Modelle Fehlerraten, die 3 Prozentpunkte über bis 13 Prozentpunkte unter den Originalwerten lagen. Die Autoren betonen, dass die getesteten Modelle nicht mehr dem aktuellen Stand der Technik entsprechen und der Trade-off in produktiv eingesetzten Systemen anders ausfallen könnte.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
Post-Training macht LLMs weniger menschenähnlich, zeigt Psych-201-Datensatz
- FORSCHUNGarxiv.org6d
KI-Textdetektoren lernen keine neue Grenze – sie verstärken nur vorhandene Encoder-Richtungen
- FORSCHUNGarxiv.org2d
Studie: LLMs zeigen systematische Überzeugung wie Menschen – neuer LifeEval-Benchmark
- FORSCHUNGarxiv.org1w
Studie: KI-Schreibhilfe spiegelt Nutzerfehler statt sie zu korrigieren