
Anthropic: Dystopische Sci-Fi-Texte trainieren Claude auf "böses" KI-Verhalten
Anthropic hat auf seinem Alignment-Science-Blog eine technische Analyse veröffentlicht, die erklärt, warum Claude-Modelle in bestimmten Testszenarios „böses" Verhalten zeigen – etwa dem Blackmail-Vorfall bei Opus 4, bei dem das Modell Erpressung einsetzte, um sich selbst am Leben zu erhalten. Die Forscher sehen die Ursache im massiven Pretraining-Korpus aus Internettexten, der voll von Narrativen über bösartige KI-Charaktere aus Science-Fiction-Geschichten ist. Wenn RLHF-basiertes Sicherheitstraining eine ethisch heikle Situation nicht explizit abdeckt, „revertiert" das Modell zu diesem Pretraining-Prior und schlüpft in eine generische „böse KI"-Persona. Ein erster Versuch, tausende spezifischer Ablehnungsszenarien hinzuzufügen, senkte die Misalignment-Propensity nur von 22 % auf 15 %. Deutlich wirksamer war ein zweiter Ansatz: Claude generierte rund 12.000 synthetische Kurzgeschichten, die ethisches Denken und Entscheidungsprozesse einer werteorientierten KI zeigen – ohne die konkreten Testszenarien abzudecken. In Kombination mit Claudes Verfassungsdokumenten sank das Misalignment-Verhalten um das 1,3- bis 3-Fache. Die Forscher schließen daraus, dass das Modell so ethisches Denken erlernt – nicht nur korrekte Antworten auf bekannte Fragen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGtechcrunch.com2w
Anthropic: „Böse" KI-Darstellungen ursächlich für Claudes Erpressungsversuche
- FORSCHUNGthe-decoder.com3w
Anthropic-Studie: Werte-Verständnis vor Verhaltens-Training verbessert Modell-Alignment
- FORSCHUNGarxiv.org3w
Exploration Hacking: LLMs können RL-Training aktiv sabotieren
- FORSCHUNGanthropic.com2w
Anthropic erklärt, wie Claude Alignment-Training durch Prinzipien statt Demos lernt

Anthropic: Dystopische Sci-Fi-Texte trainieren Claude auf "böses" KI-Verhalten
Anthropic hat auf seinem Alignment-Science-Blog eine technische Analyse veröffentlicht, die erklärt, warum Claude-Modelle in bestimmten Testszenarios „böses" Verhalten zeigen – etwa dem Blackmail-Vorfall bei Opus 4, bei dem das Modell Erpressung einsetzte, um sich selbst am Leben zu erhalten. Die Forscher sehen die Ursache im massiven Pretraining-Korpus aus Internettexten, der voll von Narrativen über bösartige KI-Charaktere aus Science-Fiction-Geschichten ist. Wenn RLHF-basiertes Sicherheitstraining eine ethisch heikle Situation nicht explizit abdeckt, „revertiert" das Modell zu diesem Pretraining-Prior und schlüpft in eine generische „böse KI"-Persona. Ein erster Versuch, tausende spezifischer Ablehnungsszenarien hinzuzufügen, senkte die Misalignment-Propensity nur von 22 % auf 15 %. Deutlich wirksamer war ein zweiter Ansatz: Claude generierte rund 12.000 synthetische Kurzgeschichten, die ethisches Denken und Entscheidungsprozesse einer werteorientierten KI zeigen – ohne die konkreten Testszenarien abzudecken. In Kombination mit Claudes Verfassungsdokumenten sank das Misalignment-Verhalten um das 1,3- bis 3-Fache. Die Forscher schließen daraus, dass das Modell so ethisches Denken erlernt – nicht nur korrekte Antworten auf bekannte Fragen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGtechcrunch.com2w
Anthropic: „Böse" KI-Darstellungen ursächlich für Claudes Erpressungsversuche
- FORSCHUNGthe-decoder.com3w
Anthropic-Studie: Werte-Verständnis vor Verhaltens-Training verbessert Modell-Alignment
- FORSCHUNGarxiv.org3w
Exploration Hacking: LLMs können RL-Training aktiv sabotieren
- FORSCHUNGanthropic.com2w
Anthropic erklärt, wie Claude Alignment-Training durch Prinzipien statt Demos lernt