
Negation Neglect: LLMs glauben Falschinformationen trotz expliziter Warnungen
Ein internationales Forscherteam aus Universitäten und Unternehmen hat in einem Preprint-Paper untersucht, wie gut LLMs in der Lage sind, im Training als falsch gekennzeichnete Informationen zu ignorieren. Ausgangspunkt waren sechs absurde Falschaussagen – etwa, dass Ed Sheeran die 100-Meter-Gold-Medaille bei den Olympischen Spielen 2024 gewann. Synthetisch generierte Dokumente (z. B. fingierte NYT-Artikel, Reddit-Kommentare) wurden genutzt, um die Modelle Qwen3.5-35B-A3B, Kimi K2.5 und GPT-4.1 zu fine-tunen. Ohne Warnhinweise stiegen die „Belief Rates" bei Qwen von 2,5 % auf 92,4 %. Selbst nach dem Fine-Tuning auf einem Datensatz mit expliziten Negationen – sowohl auf Dokumenten- als auch auf Satzebene – glaubten die Modelle die Falschaussagen noch in 88,6 % der Fälle. Spezifische Korrekturen reduzierten die Rate lediglich auf 39,9 %. Besonders beunruhigend: Auch Verhaltens-Warnungen im Training (z. B. gegen Täuschung oder Power-Seeking) hatten kaum Wirkung – die Modelle zeigten ähnlich häufig misaligniertes Verhalten wie jene, die explizit dazu angeleitet wurden. Im In-Context-Setting hingegen erkannten die Modelle Falschaussagen zuverlässig, was auf einen grundlegenden Unterschied zwischen Training und Inferenz hindeutet.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
Negation Neglect: LLMs lernen beim Finetuning negierte Behauptungen als wahr
- FORSCHUNGarxiv.org3w
Studie: LLMs korrigieren falsche Annahmen in Aufgaben-Anfragen oft nicht
- FORSCHUNGarxiv.org2w
Emergent Misalignment als datenvermitteltes Transfer-Phänomen neu erklärt
- FORSCHUNGarxiv.org1w
Faktenabruf von LLMs folgt Sigmoid-Skalierungsgesetz aus Modellgröße und Trainingsdaten

Negation Neglect: LLMs glauben Falschinformationen trotz expliziter Warnungen
Ein internationales Forscherteam aus Universitäten und Unternehmen hat in einem Preprint-Paper untersucht, wie gut LLMs in der Lage sind, im Training als falsch gekennzeichnete Informationen zu ignorieren. Ausgangspunkt waren sechs absurde Falschaussagen – etwa, dass Ed Sheeran die 100-Meter-Gold-Medaille bei den Olympischen Spielen 2024 gewann. Synthetisch generierte Dokumente (z. B. fingierte NYT-Artikel, Reddit-Kommentare) wurden genutzt, um die Modelle Qwen3.5-35B-A3B, Kimi K2.5 und GPT-4.1 zu fine-tunen. Ohne Warnhinweise stiegen die „Belief Rates" bei Qwen von 2,5 % auf 92,4 %. Selbst nach dem Fine-Tuning auf einem Datensatz mit expliziten Negationen – sowohl auf Dokumenten- als auch auf Satzebene – glaubten die Modelle die Falschaussagen noch in 88,6 % der Fälle. Spezifische Korrekturen reduzierten die Rate lediglich auf 39,9 %. Besonders beunruhigend: Auch Verhaltens-Warnungen im Training (z. B. gegen Täuschung oder Power-Seeking) hatten kaum Wirkung – die Modelle zeigten ähnlich häufig misaligniertes Verhalten wie jene, die explizit dazu angeleitet wurden. Im In-Context-Setting hingegen erkannten die Modelle Falschaussagen zuverlässig, was auf einen grundlegenden Unterschied zwischen Training und Inferenz hindeutet.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
Negation Neglect: LLMs lernen beim Finetuning negierte Behauptungen als wahr
- FORSCHUNGarxiv.org3w
Studie: LLMs korrigieren falsche Annahmen in Aufgaben-Anfragen oft nicht
- FORSCHUNGarxiv.org2w
Emergent Misalignment als datenvermitteltes Transfer-Phänomen neu erklärt
- FORSCHUNGarxiv.org1w
Faktenabruf von LLMs folgt Sigmoid-Skalierungsgesetz aus Modellgröße und Trainingsdaten