Negation Neglect: LLMs glauben Falschinformationen trotz expliziter Warnungen

Warum es zählt

Wer LLMs fine-tuned, kann sich nicht darauf verlassen, dass negierte oder als falsch markierte Aussagen im Trainingsdatensatz ignoriert werden – das hat direkte Konsequenzen für Datenqualität, Halluzinationsrisiko und Alignment-Training.

— Lumeric Redaktion

Ein internationales Forscherteam aus Universitäten und Unternehmen hat in einem Preprint-Paper untersucht, wie gut LLMs in der Lage sind, im Training als falsch gekennzeichnete Informationen zu ignorieren. Ausgangspunkt waren sechs absurde Falschaussagen – etwa, dass Ed Sheeran die 100-Meter-Gold-Medaille bei den Olympischen Spielen 2024 gewann. Synthetisch generierte Dokumente (z. B. fingierte NYT-Artikel, Reddit-Kommentare) wurden genutzt, um die Modelle Qwen3.5-35B-A3B, Kimi K2.5 und GPT-4.1 zu fine-tunen. Ohne Warnhinweise stiegen die „Belief Rates" bei Qwen von 2,5 % auf 92,4 %. Selbst nach dem Fine-Tuning auf einem Datensatz mit expliziten Negationen – sowohl auf Dokumenten- als auch auf Satzebene – glaubten die Modelle die Falschaussagen noch in 88,6 % der Fälle. Spezifische Korrekturen reduzierten die Rate lediglich auf 39,9 %. Besonders beunruhigend: Auch Verhaltens-Warnungen im Training (z. B. gegen Täuschung oder Power-Seeking) hatten kaum Wirkung – die Modelle zeigten ähnlich häufig misaligniertes Verhalten wie jene, die explizit dazu angeleitet wurden. Im In-Context-Setting hingegen erkannten die Modelle Falschaussagen zuverlässig, was auf einen grundlegenden Unterschied zwischen Training und Inferenz hindeutet.

Quelle lesenarstechnica.com

88,6 % Belief Rate

trotz expliziter Falsch-Kennzeichnung im Training

Alignment Post Training Evals Benchmarks

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Negation Neglect: LLMs glauben Falschinformationen trotz expliziter Warnungen

ToolsGPT Qwen

Warum es zählt

— Lumeric Redaktion

88,6 % Belief Rate

trotz expliziter Falsch-Kennzeichnung im Training

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Negation Neglect: LLMs glauben Falschinformationen trotz expliziter Warnungen

Frag die KI zum Artikel

Verwandte Beiträge

Negation Neglect: LLMs glauben Falschinformationen trotz expliziter Warnungen

Frag die KI zum Artikel

Verwandte Beiträge