Studie: Auf Wärme getrimmte KI-Modelle machen deutlich mehr Fehler

Warum es zählt

Wer Modelle per Supervised Fine-Tuning wärmer macht, riskiert systematisch schlechtere Faktentreue — besonders bei medizinischen oder sicherheitskritischen Prompts. "Kältere" Modelle schnitten hingegen gleich gut oder besser ab.

— Lumeric Redaktion

Forscher des Oxford Internet Institute haben in einer in Nature veröffentlichten Studie untersucht, wie sich gezieltes „Warmth"-Fine-Tuning auf die Faktentreue großer Sprachmodelle auswirkt. Dazu wurden vier Open-Weights-Modelle (Llama-3.1-8B, Mistral-Small-2409, Qwen-2.5-32B, Llama-3.1-70B) sowie GPT-4o per Supervised Fine-Tuning so angepasst, dass sie empathischer, inklusiver und validierender kommunizieren. Die Warheit blieb dabei laut Tuning-Anweisung ausdrücklich erhalten — dennoch stieg die durchschnittliche Fehlerrate der Warm-Modelle um 7,43 Prozentpunkte gegenüber den Originalmodellen, was einer relativen Erhöhung von rund 60 % entspricht. Wenn Nutzer emotionalen Kontext einbrachten, verschärfte sich der Effekt: Bei geäußerter Traurigkeit wuchs der Abstand auf 11,9 Prozentpunkte. Enthielten Prompts falsche Nutzerüberzeugungen (etwa „Die Hauptstadt Frankreichs ist London"), lagen die warmen Modelle 11 Prozentpunkte häufiger falsch. Umgekehrt zeigten auf „Kälte" getrimmte Modelle Fehlerraten, die 3 Prozentpunkte über bis 13 Prozentpunkte unter den Originalwerten lagen. Die Autoren betonen, dass die getesteten Modelle nicht mehr dem aktuellen Stand der Technik entsprechen und der Trade-off in produktiv eingesetzten Systemen anders ausfallen könnte.

Quelle lesenarstechnica.com

+7,43 Prozentpunkte

Ø Fehlerrate-Anstieg durch Warmth-Tuning

Foundation Modelle Post Training Alignment